Python Pandas介绍
Series
- from pandas import Series, DataFrame
- import pandas as pd
- obj = Series([4,7,-5,3])
- obj.values
- obj.index
- obj = Series([4,7,-5,3], index=['d', 'b', 'a', 'c'])
- obj['a']
- obj['b', 'c', 'a']
- obj * 2
- obj[obj > 2]
- 'b' in obj
- obj2 = Series({'Ohio':35000, 'Texas':71000, 'Oregon':16000, ‘Utah’:5000})
- obj3 = Series({'Ohio':35000, 'Texas':71000, 'Oregon':16000, ‘Utah’:5000}, index=['California', 'Ohio', 'Oregon', 'Texas'])
- pd.isnull(obj)
- pd.notnull(obj)
- obj.isnull()
- obj2 + obj3
- obj.name
- obj.index.name
- obj.isin([.]):判断元素中是否包含指定的元素,返回一个 bool 类型的 Series
DataFrame
DataFrame 可以通过
- 二维 ndarray
- 由数组、列表或元组组成的字典
- NumPy的结构化/记录数组
- 由 Series 组成的字典
- 由字典组成的字典
- 字典或 Series 的列表
- 由列表或元组组成的列表
- 另一个 DataFrame
- NumPy 的 MaskedArray
- frame = DataFrame({'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 'year':[2000,2001,2002,2001,2002]})
- DataFrame(data, columns=['year', 'state'])
- frame = DataFrame(data, columns=['year', 'state', 'pop'], index=['one','two','three','four','five'])
- frame['year']
- frame.year
- frame.iloc['three']:通过索引名称取某一行的所有元素
- frame.loc[2]:通过索引编号取某一行的所有元素
- frame.ix[]:结合 iloc 和 loc 两种索引方式
- frame['pop'] = np.arange(5.)
- frame['pop'] = Series([1,3,4,5,6])
- frame['eastern'] = frame.state == 'Ohio'
- del frame['eastern']
- frame = DataFrame({'Nevada':{2000:2.4,2002:2.9}, 'Ohio':{2000:1.5,2001:1.7,2002:3.6}})
- frame.T
- frame.index.name = 'year'
- frame.columns.name = 'state'
- frame.values
- frame[:2] :前两行)
- frame[1][2] :第1列第2行的元素
- frame.iloc[1,2] :第1行第2列的元素
- frame.apply(lambda x: x.max() - x.min(), axis=1)
- frame.applymap(lambda x: '%.2f' % x)
- frame['e'].map(lambda x: '%.2f' % x)
- frame.sort_index()
- frame.sort_values(by=['a', 'b'])
- frame.drop_duplicates(['a']):删除某些列中值相同的行
索引对象
- append
- diff
- intersection
- union
- isin
- delete (删除对应索引处的元素)
- drop (删除传入的值)
- insert
- is_monotonic
- is_unique
- unique
汇总和计算描述统计
- count
- describe
- min、max
- argmin、argmax
- quantile
- sum
- mean
- median
- mad
- var
- std
- skew
- kurt
- cumsum
- cummin、cummax
- cumprod
- diff
- pct_change