Pandas:
一.pandas的简单介绍
pandas的使用要基于numpy,主要用于数据分析,提供了大量的数据分析函数和方法,为时间序列分析提供了很好的支持。
pandas的数据结构:
1.Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
2.Time- Series:以时间为索引的Series。
3.DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
4.Panel :三维的数组,可以理解为DataFrame的容器。
以下的内容主要以DataFrame为主。
二.pandas生成数据表
1.导入pandas和numpy库
2.用pandas创建数据表
3.数据表的信息查询
三.数据表的格式的转换
1.
3.数据提取
主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签值和位置进行提取。
4.数据汇总
主要函数是groupby和pivote_table
5.数据统计
数据采样,计算标准差,协方差和相关系数