数据预处理概念

最新推荐文章于 2022-09-09 19:30:35 发布

拉斯特night

最新推荐文章于 2022-09-09 19:30:35 发布

阅读量2.7k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lastnight123/article/details/79156692

版权

数据预处理的常用流程：

　　　　1）去除唯一属性

　　　　2）处理缺失值

　　　　3）属性编码

　　　　4）数据标准化、正则化

　　　　5）特征选择

　　　　6）主成分分析

1、去除唯一属性

　　如id属性，是唯一属性，直接去除就好

2、处理缺失值

(1)直接使用含有缺失值的特征

　　如决策树算法就可以直接使用含有缺失值的特征

(2)删除含有缺失值的特征

(3)缺失值补全(最广泛运用)

用最可能的值来插补缺失值

1)均值插补

　　若样本属性的距离是可度量的，则该属性的缺失值就以该属性有效值的平均值来插补缺失的值。如果样本的属性的距离是不可度量的，则该属性的缺失值就以该属性有效值的众数来插补缺失的值。

2)用同类均值插补

　　首先将样本进行分类，然后以该类样本中的均值来插补缺失值。

3)建模预测

　　将缺失的属性作为预测目标来预测。这种方法效果较好，但是该方法有个根本的缺陷：如果其他属性和缺失属性无关，则预测的结果毫无意义。但是如果预测结果相当准确，则说明这个缺失属性是没必要考虑纳入数据集中的。一般的情况介于两者之间。

4)高维映射

　　将属性高映射到高维空间。这种做法是最精确的做法，它完全保留了所有的信息，也未增加任何额外的信息。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值。但它的缺点也很明显，就是计算量大大提升。而且只有在样本量非常大的时候效果才好，否则会因为过于稀疏，效果很差。

5)多重插补

　　多重插补认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。

6)极大似然估计

7)压缩感知及矩阵补全

　　压缩感知通过利用信号本身所具有的稀疏性，从部分观测样本中回复原信号。压缩感知分为感知测量和重构恢复两个阶段。

　　　　感知测量：此阶段对原始信号进行处理以获得稀疏样本表示。常用的手段是傅里叶变换、小波变换、字典学习、稀疏编码等

　　　　重构恢复：此阶段基于稀疏性从少量观测中恢复原信号。这是压缩感知的核心

　　矩阵补全

3、特征编码

(1)特征二元化：将数值型的属性转换成布尔型的属性

(2)独热编码：构建一个映射，将这些非数值属性映射到整数。其采用N位状态寄存器来对N个可能的取值进行编码，每个状态都由独立的寄存器位表示，并且在任意时刻只有其中的一位有效。

4、数据标准化、正则化

(1)数据标准化：将样本的属性缩放到某个指定范围

　　进行数据标准化的原因：一是因为某些算法要求样本数据具有零均值和单位方差。二是样本不同属性具有不同量级时，消除数量级的影响。

　　min-max标准化：标准化之后，样本x的所有属性值都在[0,1]之间

　　z-score标准化：标准化之后，样本集的所有属性的均值都是0，标准差均为1

(2)数据正则化：将样本的某个范数（如L1范数）缩放到单位1。正则化的过程是针对单个样本的，对于每个样本将样本缩放到单位范数。通常如果使用二次型（如点积）或者其他核方法计算两个样本之间的相似性，该方法会很有用。

5、特征选择

(1)过滤式选择：先对数据集进行特征选择，然后再训练学习器。特征选择过程与后续学习器无关。常用方法有Relief（二分类）、Relief-F（多分类）

(2)包裹式选择：直接把最终将要使用的学习器的性能作为特征子集的评价准则。常用方法LVW

(3)嵌入式选择和L1正则化

　　嵌入式特征选择是在学习器训练过程中自动进行了特征选择

6、稀疏表示和字典学习

数据预处理实战总结：

1、绘制箱型图判断数据是否有异常值

　　运用Python的Pandas库中，读入数据，然后使用describe()函数查看数据的基本情况
　　

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据预处理概念

数据预处理的常用流程：　　　　1）去除唯一属性　　　　2）处理缺失值　　　　3）属性编码　　　　4）数据标准化、正则化　　　　5）特征选择　　　　6）主成分分析1、去除唯一属性　　如id属性，是唯一属性，直接去除就好2、处理缺失值(1)直接使用含有缺失值的特征　　如决策树算法就可以直接使用含有缺失值的特征(2)删除含有缺失值的特征(3)缺失值补全
复制链接

扫一扫

专栏目录

博客等级

码龄11年

11
原创

0
点赞

17
收藏

1
粉丝

关注

私信

热门文章

分类专栏

Mysql 4篇
Python 3篇
Linux 2篇
机器学习 3篇
其他 1篇

最新评论

MySQL总结—基础篇（一）
拉斯特night: 实验楼第九节的答案： #物理老师查找成绩做好的一个，并将数据保存为文档 SELECT sid, sname, gender FROM student WHERE sid = (SELECT sid from mark WHERE cid=2 and score=(SELECT MAX(score) FROM mark WHERE cid=2)) INTO OUTFILE '/tmp/out_1.txt'; #查找到Tom的化学成绩 SELECT sid, cid, score FROM mark WHERE sid = (SELECT sid FROM student WHERE sname='Tom') AND cid = (SELECT cid FROM course WHERE cname='chemistry'); #将Tom的化学成绩改为98 UPDATE mark SET score=98 WHERE sid = (SELECT sid FROM student WHERE sname='Tom') AND cid = (SELECT cid FROM course WHERE cname='chemistry');

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。