《python数据分析与应用》第五章:使用pandas进行数据预处理

5.1 合并数据

5.1.1 堆叠合并数据

1.横向堆叠:concat函数,axis=1

2.纵向堆叠:concat函数,axis=0 或 append函数

5.1.2 主键合并数据:merge函数 和 join方法

5.1.3 重叠合并数据:combine_first方法

5.1.4 任务实现

5.2 清洗数据

5.2.1 检测与处理重复值

1.记录重复:list、set、drop_duplicates

2.特征重复

(1)求相似度矩阵:corr,方法:pearson(默认),kendall,spearman
(2)先使用DataFrame.equals方法,再通过遍历的方式筛选出完全重复的特诊并删掉

5.2.2 检测与处理缺失值

  1. 检测:isnull 和 notnull
  2. 处理:删除法dropna,替换法fillna,插值法interpolate

5.2.3 检测与处理异常值:3sigma原则、箱线图分析

5.2.4 任务实现

5.3 标准化数据

5.3.1 离差标准化数据

最简单,标准化后的数据限定在[0,1]区间内,受数据分布影响较大
X ∗ = ( X − m i n ) / ( m a x − m i n ) X^* = (X-min)/(max-min) X=(Xmin)/(maxmin)

5.3.2 标准差标准化数据

应用最广泛,受数据分布影响较小,标准化后的数据均值为0,标准差为1
X ∗ = ( X − X ‾ ) / σ X^*=(X-\overline{X})/\sigma X=(XX)/σ

5.3.3 小数定标标准化数据

适用程度适中,受数据分布影响不大
X ∗ = X / 1 0 k X^*=X/10^k X=X/10k

5.3.4

5.4 转换数据

5.4.1 哑变量处理类别型数据:get_dummies

5.4.2 离散化连续型数据

  1. 等宽法:cut函数
  2. 等频法:自定义函数 + cut函数
  3. 聚类分析法:K-means

5.4.3 任务实现

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值