插值法补齐缺失数据_数据预处理总结

最新推荐文章于 2024-08-03 18:45:14 发布

何江海真丑

最新推荐文章于 2024-08-03 18:45:14 发布

阅读量5.9k

点赞数

文章标签：插值法补齐缺失数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33726387/article/details/112560203

版权

数据预处理是机器学习和数据分析的重要步骤，其中处理缺失值是关键环节。本文介绍了数据清理中的去除唯一属性和处理缺失值的方法，尤其是处理缺失值的插值法，包括随机插值、多重插补等。同时，讨论了异常值的检测和处理策略，以及数据集成、数据变换和数据规约的基本概念。

摘要由CSDN通过智能技术生成

一、概述

在工程实践中，我们拿到的数据可能包含了大量的缺失值、重复值，异常值等，包含大量的噪音，也可能因为人工录入错误导致有异常点存在，非常不利于算法模型的训练。数据清洗的结果是对各种“脏”数据进行对应方式的处理，得到标准的、干净的、连续的数据，提供给数据统计、数据挖掘等使用。

对于数据预处理的任务，普遍的说法分为下列四个步骤： 数据清洗、数据集成、数据变换和数据规约。具体的步骤如下：

二、数据预处理方法

2.1 数据清理

1. 去除唯一属性

唯一属性通常是一些id属性，这些属性并不能刻画样本自身的分布规律，故删除即可。

2. 处理缺失值

删除含有缺失值的特征：适用于某属性含有大量缺失值，缺失率大于80%；
缺失值填充：根据数据分布填充，建模预测、插值法填充、多重插补、极大似然估计、压缩感知和矩阵补全。
- 根据数据分布填充：若数据符合均匀分布，用该变量的均值或该变量同类均值填补缺失，若数据存在倾斜分布的情况，采用中位数进行填补。
- 建模预测填充：将缺失的属性作为预测目标来预测，将数据集按照是否含有特定属性的缺失值分为两类，利用现有的机器学习算法（回归、贝叶斯、随机森林、决策树等模型）对待预测数据集的缺失值进行预测。（该方法的根本的缺陷是如果其他属性和缺失属性无关，则预测的结果毫无意义；但是若预测结果相当准确，则说明这个缺失属性是没必要纳入数据集中的

最低0.47元/天解锁文章

何江海真丑

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。