2. 数据挖掘入门之数据清洗

最新推荐文章于 2022-08-07 16:34:12 发布

Teague_DZ

最新推荐文章于 2022-08-07 16:34:12 发布

阅读量787

点赞数

文章标签：机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34272713/article/details/105650686

版权

数据清洗作用是利用有关技术如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理，异常值处理，数据分桶，特征归一化/标准化等流程

1. 缺失值处理

不处理：针对xgboost等树模型，有些模型有处理缺失的机制，所以可以不处理。
删除该列：如果缺失的太多，可以考虑删除该列
插值补全：均值、中位数、众数、建模预测、多重插补，通过感知补全或矩阵补全等高维映射方法等
分箱处理：缺失值一个箱

2. 异常值处理

BOX - COX转换：用于连续的变量不满足正态分布的时候，在做线性回归的过程中，一般需要做线性模型假设
箱线图分析：依据实际数据绘制，真实、直观的表现出了数据分布的原本面貌，其判断异常值的标准以四分位数和四分位距为基础
长尾截断

3. 数据分桶

等频分桶：区间的边界值要经过选择，使得每个区间包含大致相等的实例数量。
等距分桶：从最小值到最大值之间，均分为N等份。
Best - KS分桶：类似利用基尼指数进行二分类。
卡方分桶：依赖于卡方检验：具有最小卡方值得相邻区间合并在一起，直到满足确定的停止标准。

4. 数据转换

数据归一化（MinMaxScaler）
标准化（StandardScaler）
对数变换（loglp）
转换数据类型（astype）
独热编码（OneHotEncoder）
标签编码（labelEncoder）
修复性偏斜特征（boxcoxlp）

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2. 数据挖掘入门之数据清洗

数据清洗作用是利用有关技术如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理，异常值处理，数据分桶，特征归一化/标准化等流程1. 缺失值处理不处理：针对xgboost等树模型，有些模型有处理缺失的机制，所以可以不处理。删除该列：如果缺失的太多，可以考虑删除该列插值补全：均值、中位数、众数、建模预测、多重插补，通过感知补全或矩阵补全等高维...
复制链接

扫一扫

Teague_DZ CSDN认证博客专家 CSDN认证企业博客

码龄8年

13: 原创

20万+: 周排名

104万+: 总排名

1万+: 访问

: 等级

242: 积分

4: 粉丝

4: 获赞

2: 评论

46: 收藏

私信

关注

热门文章

分类专栏

最新评论

论文阅读之identity mapping
weixin_42064141: 神清气爽赞了
论文阅读之identity mapping
空尼基娃: 讨论：值得注意的是，门控和1×1卷积快捷方式引入了更多的参数，应该比身份快捷方式具有更强的代表性能力。事实上，只有捷径门和1×1卷积覆盖了身份捷径的解决空间。，它们可以优化为身份快捷方式)。但其训练误差高于身份捷径，说明这些模型的退化是由优化问题引起的，而不是表征能力。这里的覆盖了身份捷径的解决空间。怎么解释？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。