Python数据分析——数据清洗与准备

该部分为学习笔记,具体内容详见:《利用Python进行数据分析》一书

一、处理缺失值

1. 过滤缺失值

有多种过滤缺失值的方法。虽然可以使用 pandas.isnull 和布尔值索引手动地过滤缺失值,但 dropna 在过滤缺失值时是非常有用的。

2. 补全缺失值

有时可能需要以多种方式补全“漏洞”,而不是过滤缺失值(也可能丢弃其他数据)。大多数情况下,主要使用 fillna 方法来不全缺失值。调用 fillna 时,可以使用一个常数来替代缺失值。

二、数据转换

1. 删除重复值

2. 使用函数或映射进行数据转换

3. 替代值

4. 重命名轴索引

5. 离散化和分箱

6. 检测和过滤异常值

7. 置换和随机抽样

8. 计算指标/虚拟变量

三、字符串操作

1. 字符串对象方法

2. 正则表达式

3. pandas 中的向量化字符串函数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值