为什么要用pandas呢?
numpy能够帮我们处理数值的数据,pandas除了处理数值以外还可以处理字符串,时间序列等数据类型;
正常我们还是主要用pandas来读取数据;以下是读取不同类型的文件:
pd.read_csv()
pd.read_excel()
pd.read_html()
pd.read_hdf()
读取数据后,我们说一下pd对数据的一些处理;
1.pandas的常用数据类型
series 一维,带标签的数组;
dataframe 二维,seiries的容器;
2.series
我们用一个字典来作为series创建data对象的内容;字典的键就作为series的索引了;
import pandas as pd
import string
dic={string.ascii_uppercase[i]:i for i in range(1,10)}#创建一个字典字母对应数字
data=pd.Series(dic)
print(data.shape)
查看一下data的维度:
(9,)
series的切片和索引:和序列的切片和索引相同;
print(data[[0,1,2,3]])
print(data[2:3])#切片
print(data[data<3])#布尔索引
结果:dtype就是数据的类型了;