Series
Series是一个一维的向量,每个值都会有对应标签,该标签我们称之为Index
Obj = Series([4, 5, -7, 8])
Obj
Out[5]:
0 4
1 5
2 -7
3 8
dtype: int64
Obj2 = Series([4, 5, -7, 8], index = ['a', 'b', 'c', 'd'])
Obj2
Out[7]:
a 4
b 5
c -7
d 8
dtype: int64
通过Index可以对Series进行查询以及修改
Obj2['a']
Out[12]: 4
Obj2['a'] = 0
Obj2
Out[14]:
a 0
b 5
c -7
d 8
dtype: int64
Numpy函数,以及其他类Numpy的向量计算函数,可以应用在Series中,与Numpy的ndarrays基本相同
Obj * 2
Out[16]:
0 8
1 10
2 -14
3 16
dtype: int64
python的dict数据可以直接转换为Series
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3
Out[17]:
Ohio 35000
Texas 71000
Oregon 16000
Utah 5000
dtype: int64
DataFrame
DataFrame是我作为数据分析师,最为常用的一个数据类型。DataFrame代表了一个长方形的表,包含了任意的长度及宽度(可以理解为在Excel中的一个表)。DataFrame拥有Column Index和Row Index(行标与列标)。
最常见的创建DataFrame的方法为从一个包含了Numpy arrays的dict数据转换
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', '