pandas详细用法

DataFrame(数据框)必须掌握的函数

导入数据

pd.read_csv(filename):从csv文件导入数据
pd.read_table(filename):从限定分隔符的文本文件导入数据
pd.read_excel(filename):从excel导入数据
pd.read_html(url): 解析url、字符串或者html文件,抽取其中的tables表格

选择数据

df[col]:根据列名,并以series的形式返回列
df[col1,col2]:以dataframe形式返回多列
s.iloc[0]:按位置选取数据
s.loc['index]:按索引选取数据
df.iloc[0,:]:返回第一行
df.iloc[0,0]:返回第一行的第一个元素

查看数据与统计变量

df.describe():查看数据列值得汇总统计
df.mean():返回所有列的均值
df.corr():返回列与列之间的相关系数
df.count():返回每一列中的非空值的个数
df.max():返回每一列的最大值
df.min():返回每一列的最小值
df.median():返回每一列的中位数
df.std():返回每一列的标准差

数据处理

df.columns=[‘a’,‘b’,‘c’]:重命名列名
pd.isnull():检查dataframe对象中的控制,并返回一个boolean数组
pd.notnull():检查dataframe对象中的非空值,并返回一个boolean数组
df.dropna():删除所有包含空值的
df.dropna(axis=1):删除所有包含空值的
df.fillna(x):用x替换dataframe对象中所有的空值
s.astype(float):将series中的数据类型更换为float类型
s.replace(1,‘one’):用one代替所有等于1的值
s.replace([1,3],[‘one’,‘three’]):用one代替1,用three代替3
df[df[col]>0,5]:选择col的值大于0.5的行
df.sort_values(col1):按照col1排序数据,默认升序排列
df.sort_values(col2,ascending=False):按照col1降序排序数据
df.groupby(col):返回一个按列col进行分组的groupby对象
df.pivot_table(index=col1,values=[col2,clo3],aggfunc=max):创建一个按列col1进行分组,并计算col2和col3的最大值的数据透视表
data.apply(np.mean):对dataframe中的一列应用函数np.mean

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值