- 博客(6)
- 收藏
- 关注
原创 【利用python进行数据分析】时间序列
时间序列(time series)数据是一种重要的结构化数据形式。时间序列数据的意义取决于具体的应用场景,主要有:时间戳(timestamp);固定时期(period);时间间隔(interval);实验或过程时间最简单也最常见的时间序列是用时间戳进行索引的。pandas提供了一组标准的时间序列处理工具和数据算法,可以高效处理非常大的时间序列,轻松进行切片/切块、聚合、对定期/不定期对...
2018-09-24 17:26:30 305
原创 【利用python进行数据分析】数据聚合与分组运算
在将数据集准备好了之后,通常的任务是计算分组统计或生成透视表。pandas提供了groupby功能,可以自然地对数据集进行切片、切块和摘要。在本章中,我们将会学到:1根据一个或多个键(函数、数组或DataFrame列名)拆分pandas对象2.计算分组摘要统计,如计数、平均值,标准差3.对DataFrame的列应用各种各样的函数4.计算透视表或交叉表5.执行分位数分析以...
2018-09-21 12:34:15 1461
原创 【利用python进行数据分析】绘图和可视化
通常的引入约定是:import matplotlib.pyplot as pltfig,axes=plt.subplots(2,3)这种用法,可以一下子产生2x3个子窗口,并且以numpy数组的方式保存在axes中,而fig仍然是整个图像对象,这样我们可以通过对axes进行索引来访问每个子窗口。wspace和hspace用于控制宽度和高度的百分比,可以用作subplot之间的间距。...
2018-09-15 21:42:05 1898
原创 【利用python进行数据分析】数据规整化:清理、转换、合并、重塑
一、合并数据集数据库风格的DataFrame合并数据集的合并merge或连接join运算是通过一个或多个键将行链接起来。【一句话解释:merge就相当于join】如果没有指定哪个列进行连接,merge会自动将重叠列的列名当作键。显示指示通过on来指定:pd.merge(df1,df2,on='key')merge默认的是inner连接,结果中的键是交集。其他的方式还有‘le...
2018-09-05 23:53:39 430
原创 【利用python进行数据分析】数据加载、存储与文件格式
输入输出可以划分为几个大类:1.读取文本文件和其他更高效的磁盘存储格式2.加载数据库中的数据3.利用Web API操作网络资源---------------------------------------------------------------------------一、读写文本格式的数据以逗号分隔的文件使用pd.read_csv。表头的第一行会自动...
2018-09-03 12:07:54 1516
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人