pandas
Pandas是基于Numpy的一种工具,提供了一套名为DataFrame的数据结果,比较切合分析中的表结构,可用Numpy或其他方式进行计算。
- 创建Series: pd.Series(data,index), Series是一维数组
- 创建DataFrame: pd.DataFrame(data,index,columns),也就是传递一个字典结构来填充data和columns,DataFrame类似于二维表格,简称df
- 查看df头尾行:df.head(i),df.tail(i),如不填参数则分别返回前五行和后五行的内容。
- 查看索引/列/数据:df.index,df.columns,df.values
- 快速统计汇总:df.descrbe()
- 数据转置:df.T
- 按轴排列:df.sort_index(axis=0,ascending=True)
- 按值排列:df.sort_values(columns,axis=0,ascending=True)
- 获取:df[‘columnsname’] 或者df.columns,会返回列
- 通过条件选取某列:df=df[df(‘columns’)==‘a’]
- 对行切片:df[start:stop:step],利用df[n:n+1]即可获取某行
- 通过标签选区某行:df.loc[index,columnsname]
- 通过位置选取某行:df.iloc[indexpos,columnspos],df.iloc[i,:]可获取一行,df.iloc[:,i]可获取一列
- 布尔索引:df[bool],可以对单独的列进行判定,也可以对整个DataFrame进行判定
- 在pandas中使用np.nan代替缺失值,这些值不会被包含在计算中
- 对index和columns进行增删改:df.reindex(index,columns)
- 去掉含有缺失值的行:df.dropna(how=‘any’),可以选择how='all’只去掉所有值均缺失的行
- 缺失值补充:df.fillna(value)
- 数据应用:df.apply(func),可以是现有函数也可以是lambda函数
- 连接:pd.merge(left,right)
- 追加:df.append(data)
- 分组:df.groupby(columnsname).func(),通常为分组/执行函数/组合结果
- 时间:pandas有着重采样等丰富的时间操作
- 写入csv文件:df.to_csv(filename)
- d读取csv文件:df.read_csv(filename),读出的类型为DataFrame
https://www.yiibai.com/numpy/
https://www.cnblogs.com/limitlessun/p/8489749.html