- 博客(5)
- 收藏
- 关注
原创 pandas时间序列
时间序列是一种重要的结构化数据形式。时间序列的数据意义取决于应用的场景:1.时间戳(timestamp) : 特定的时刻2.固定时期(period),如2018年的8月3.时间间隔(interval): 由起始的时间戳和结束的时间戳决定.时期(period)可以被看作时间间隔的特列,因为时间间隔过长,可以去这样想可能我们经常见到或用到的索引就是时间戳。 1.日期和...
2018-08-23 10:24:12 290
原创 pd字符串处理
先说明一下,这些知识,也是我在学习有些书籍,然后写的知识点,也是用自己的理解写出来,例子有些是自己添加,有些是和书籍上一样的,是看我是否写错。我写这些博客也是自己学习的痕迹和以后方便自己复习,再回顾。所以本人也是一个学生。1.python很多内建方法很适合处理string。2.而对于更复杂得模式,可以配合正则表达式。而pandas则混合了两种方式。1.字符串对象方法大部分字符串可以使用...
2018-08-12 21:48:25 1521
原创 pandas数据变换(二)
5.离散化和装箱连续型数据经常离散化或分散成bins(分箱)来分析。假设又一组数据,数据代表不同的年龄,把人分到不同的年龄组import numpy as pdimport pandas as pdfrom numpy import nan as NAages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]#把上诉年龄下...
2018-08-09 16:52:15 1535 1
原创 pandas数据变换(一)
1.删除重复值import numpy as npimport pandas as pddata=pd.DataFrame({'k1':['one','two']*3+['two'],'k2':[1,1,2,3,3,4,4]})print(data)#输出: k1 k20 one 11 two 12 one 23 two 34 one ...
2018-08-09 10:05:24 1481
原创 pandas数据清理
在数据分析中,80%的时间是用于数据清理。1.对于数值型数据,pandas用用浮点值NaN来表示缺失值,称之为标识符,这种值能被轻易检测到。在pandas中,把缺失值表示NA内建的python None也表示缺失值NAimport numpy as npimport pandas as pdobj=pd.Series(['li','xun',np.nan,'big'])p...
2018-08-08 14:45:41 1444
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人