Pandas常用操作整理

- pandas读取数据

1,pandas读取纯文本文件
纯文本文件包括:csv,txt
语法:pd.read_csv(fpath)
2,读取excel文件
语法:pd.read_excel(fpath)
3,读取MySQL数据库
语法:pd.read_sql()

- pandas数据结构

1,Series
Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引组成)

2,DataFrame
Dataframe是一个表格型的数据结构
每行可以是不同的值类型(数值,字符串,布尔值)
既有行索引index,也有列索引columns
可以被看做由Series组成的字典

3,从DataFrame中查询出Series
如果只查询一行,一列,返回的是pd.Series
如果查询多行,多列,返回的是pd.DataFrame

- pandas查询数据

pandas查询数据的几种方法
1,df.loc方法,根据行,列的标签值查询
2,df.iloc方法,根据行,列的数字位置查询
3,df.where方法
4,df.query方法

df.loc既能查询,又能覆盖写入,强烈推荐多用!

pands使用df.loc查询数据的方法
1,使用单个lable值查询数据
2,使用值列表批量查询
3,使用数值区间进行范围查询
4,使用条件表达式查询
5,调用函数查询

以上查询方法,既使用于行,也适用于列

- pandas新增数据列

对于已经存在的DataFrame,对其新增数据列
1,直接赋值
2,df.apply方法
3,df.assign方法
可以同时添加多个新的列
4,按条件选择分组分别赋值

- pandas数据统计函数

1,汇总类统计
df.describe()
df[].mean() df[].max()等
2,唯一去重和按值计数
2.1 唯一性去重 df[].unique()
2.2 按值计数 df[].value_counts()
3,相关系数和协方差
3.1相关系数:衡量相似度程度,当他们的相关系数为1,说明两个变量变化时的正向相似度最大,当相关系数为-1时,说明两个变量变换的反向相似度最大。
df.corr()
3.2协方差:衡量同向反向程度,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向变化,协方差越小说明反向程度越高。
df.cov()

- pandas缺失值处理

pandas处理缺失值的函数有:
1,isnull 和 notnull: 检测是否是空值,可用于df和series
2,dropna:丢弃,删除缺失值
axis:删除行还是列,{0 or ‘index’ , 1 or ‘columns’ },default 0
how:=any 则任何值为空都删除,=all 则所有值为空才删除
inplace: =True 则修改当前df ,否则返回新的df
3,fillna:填充空值
value:用于填充的值,可以是单个值,或者字典(key是列名,value是值)
method:=ffill 使用前一个不为空的值填充 即forward fill ;=bfill 使用后一个不为空的值填充&#

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值