Pandas主要提供了两种用于数据运算的高级数据结构,极大加强Python运算性能。这两种类型是Series和Dataframe。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。下面来一次介绍他们的基本用法。
Series
序列可以看作定长的有序字典。不过序列的键-值是两个独立的list,可以直接进行操作。而字典的键-值是绑在一起的,要通过.keys()和.values()得到。
(1) 构造Series
python中的list,dictionary,numpy中的narray都可以来构造Series。如:
cities = pd.Series([1,2,3])
cities = pd.Series({'Chicago':1000,'New York':1300,'Portland':900,'Franksico':1100})
print cities
"""
Chicago 1000
Franksico 1100
New York 1300
Portland 900
"""
(2) Series中索引的使用
当用dictionary构造Series时,dictionary中的key-value与Series中index-value一一对应。当用list构造Series时,Series索引值默认是0~n-1。当然也可以在构造时指定索引值,就像dataframe那样。
cities = pd.Series([1,2,3] , index=['A','B','C'])
"""
A 1
B 2
C 3
"""
Series的索引值一个很大的特点就是可以是bool值,这样就会查询到Series满足这一条件的部分Series。
cities = pd.Series({'Chicago':1000,'New York':1300,'Portland':900,'Franksico':1100})
print cities[cities<1100]
“”“
Chicago 1000
Portland 900
dtype: int64
“”“