关于pandas中的几种数据结构说明:
1.Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
2.Time- Series:以时间为索引的Series。
DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
3.Panel :三维的数组,可以理解为DataFrame的容器。
4.Panel4D:是像Panel一样的4维数据容器。
5.PanelND:拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。
示例1:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#series
data=pd.Series(np.random.randn(1000),index=np.arange(1000))
data=data.cumsum()
data.plot()
plt.show()
结果图是程序默认配置的图形类型及颜色
示例2:
#dataframe
data=pd.DataFrame(np.random.randn(1000,10),
index=np.arange(1000),
columns=list("ABCDEFGHIJ") )
ax=data.plot.scatter(x='A',y='B',color='DarkBlue',label='Class1')
data.plot.scatter(x='C',y='D',color='DarkGreen',label='Class2',ax=ax)
data.plot.scatter(x='E',y='F',color='DarkRed',label='Class3',ax=ax)
data.plot.scatter(x='G',y='H',color='k',label='Class4',ax=ax)
data.plot.scatter(x='I',y='J',color='y',label='Class5',ax=ax)
plt.show()
下图中有5个类别的数据,五个颜色,集中到一个图中,x/y分别代表横轴和纵轴数据的分布,x='A',y='B'即把1000行10列的随机正态分布的数值矩阵中的A和B两列的数据进入了代入,二者形成横纵坐标,从而产生点,通过散点图可以看到矩阵大小为(1000,10)的正态数据分布的关系
鼠标移动即可看到具体坐标值
最大化视图:
示例3:简单展示柱状图样例
ax=data.plot.bar(x='A',y='B',color='DarkBlue',label='Class1')
data.plot.bar(x='C',y='D',color='DarkGreen',label='Class2',ax=ax)
data.plot.bar(x='E',y='F',color='DarkRed',label='Class3',ax=ax)
plt.show()
最大化视图,使用放大镜功能查看局部: