Pandas函数库
1.创建Series对象的方式有三种,在参数中放入列表list对象、字典dict对象,值对象都能够创建Series对象。查找其中的成员变量的索引方式有中括号[]、索引函数loc/iloc/ix三种模式。
pd.Series(list)
pd.Series(dict)
pd.Series(a)
data[索引]
索引器(函数) loc iloc ix
loc 针对显性索引 (左闭右闭)
iloc 针对隐式索引
2.创建dataFrame对象的方式也有三种,参数可以是单个或多个字典对象、单个或多个Series对象。
创建dataFrame对象
pd.DataFrame(dict) dict的value是 Series类型
pd.DataFrame(dict...dict,columns=list(str))
pd.DataFrame(Series,Series...)
index属性不设置时 则自定义为隐形索引
str元素的类型自定义为object类型
data['c']=data['a']/data['b'] 增加列
data.index 行索引列表
data.columns 所有列名
df.T dataFrame转置
3.缺失值。针对DataFrame对象中的缺失值,提供了判断是否存在缺失值函数isnull(),丢弃含缺失值的行或列函数dropna(),填充行或列中的缺失值函数fillna()。
isnull()
dropna(axis='columns',how='all',thresh='删除的阈值+1')列全部是nan才删除
fillna(method='ffill/bfill',axis=1/0) ffill往前看 再根据axis的值
duplicated()
4.pandas连接函数。concat()、join()、merge()三种函数都可以实现DataFrame对象的连接,需要注意的是concat函数会导致连接后存在重复的索引。
concat() 索引会重复
join()
merge()
5.累计与分组函数。可以利用某一列或某一行将DataFrame对象进行分组。
groupby('分组的属性')