机器学习算法笔记之6：数据预处理

最新推荐文章于 2024-08-02 13:43:48 发布

marsjhao

最新推荐文章于 2024-08-02 13:43:48 发布

阅读量2.8w

点赞数 15

分类专栏：机器学习/深度学习文章标签：机器学习数据预处理处理缺失值标准化正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/marsjhao/article/details/70213749

版权

一、概述

在工程实践中，我们得到的数据会存在有缺失值、重复值等，在使用之前需要进行数据预处理。数据预处理没有标准的流程，通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为：去除唯一属性、处理缺失值、属性编码、数据标准化正则化、特征选择、主成分分析。

二、数据预处理方法

1. 去除唯一属性

唯一属性通常是一些id属性，这些属性并不能刻画样本自身的分布规律，所以简单地删除这些属性即可。

2. 处理缺失值

缺失值处理的三种方法：直接使用含有缺失值的特征；删除含有缺失值的特征（该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的）；缺失值补全。

常见的缺失值补全方法：均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全。

（1）均值插补

如果样本属性的距离是可度量的，则使用该属性有效值的平均值来插补缺失的值；如果的距离是不可度量的，则使用该属性有效值的众数来插补缺失的值。

（2）同类均值插补

首先将样本进行分类，然后以该类中样本的均值来插补缺失值。

（3）建模预测

将缺失的属性作为预测目标来预测，将数据集按照是否含有特定属性的缺失值分为两类，利用现有的机器学习算法对待预测数据集的缺失值进行预测。

该方法的根本的缺陷是如果其他属性和缺失属性无关，则预测的结果毫无意义，但是若预测结果相当准确，则说明这个缺失属性是没必要纳入数据集中的，一般的情况是介于两者之间。

（4）高维映射

将属性映射到高维空间，采用独热码编码

最低0.47元/天解锁文章

关注

15
点赞
踩
186

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

marsjhao CSDN认证博客专家 CSDN认证企业博客

码龄14年

55: 原创

12万+: 周排名

50万+: 总排名

90万+: 访问

: 等级

4977: 积分

361: 粉丝

428: 获赞

65: 评论

1109: 收藏

私信

关注

热门文章

分类专栏

最新评论

cin、!cin作为条件判断原理分析
时光3: 以前有这两个函数？现在没了，vs2019。-----------------------------------basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。
cin、!cin作为条件判断原理分析
时光3: basic_ios 的定义，发现它有两个重载函数。operator void *() const 和 bool operator!() const。这两个函数使得流对象可作为判断语句的内容。以前有，现在没了，vs2019
Keras上实现卷积神经网络CNN
一涟河畔、怨人徨: np.random.seed(1337) 这行代码有什么用呀
Keras上实现卷积神经网络CNN
qq_34706232: 实现啥功能？
TensorFlow变量管理
woshifenghaha: 请问，tf.get_variable("foou/baru/u", [1]) 中【1】是什么意思

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。