数据预处理方法

最新推荐文章于 2024-08-21 20:36:21 发布

Vicky_ding

最新推荐文章于 2024-08-21 20:36:21 发布

阅读量5.5w

点赞数 13

分类专栏：数据预处理方法数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33457248/article/details/79596384

版权

数据预处理可以提高数据的质量，从而有助于提高后续学习过程的精度和性能。通常预处理方法包含以下几种：

1、数据清理

数据清理通过填充缺失值，光滑噪声，识别离群点，并纠正数据中的不一致等技术来进行。这里我们主要介绍缺失值、噪声数据和不一致数据的数据清理方法。

缺失值填充：缺失值对于无监督学习结果会带来影响，通常采用以下方法进行填充：

1) 删除含有缺失值的样本：无监督学习过程中不使用有缺失值的元组，即在无监督学习过程中删除含有缺失值的样本。此方法的缺点是删除含有缺失值的样本可能使得留下的样本用于学习的样本不能完全正确反映原始数据的分布状态，使得学习结果偏离真实情况，不能发现数据的原始分布。因此该方法不是很有效的样本缺失值处理方法，除非元组有多个属性值空缺时才采用此方法，否则不采用此方法。

2) 人工填写缺失值：该方法就是人工补充样本的缺失值，因此非常费时，不适于大规模数据集的无监督学习数据预处理。

3) 使用一个全局常量填充缺失值：该方法虽然简单，但并不是很可靠，因为仍然存在偏离数据原始分布信息的问题。从而使得学习结果无法发现所学习数据中隐藏的真实信息。

4) 使用属性的均值填充缺失值：该方法相对上一方法要好些，但仍然存在偏离原始数据分布信息的潜在危险。

5) 使用与给定元组同一类的所有样本的属性均值填充相应的缺失值：该方法比使用属性均值填充缺失值更好，更能接近原始数据的分部信息。

最低0.47元/天解锁文章

关注

13
点赞
踩
121

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。