[DataAnalysis]常用数据预处理方法汇总

最新推荐文章于 2024-08-21 20:36:21 发布

TOMOCAT

最新推荐文章于 2024-08-21 20:36:21 发布

阅读量3w

点赞数

分类专栏：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TOMOCAT/article/details/82531911

版权

数据分析专栏收录该内容

47 篇文章 2 订阅

订阅专栏

常用的包括聚集、降维、离散化和标准化等

聚集aggregating

将两个或多个对象合并成单个对象，但是难免会丢失细节。

抽样sampling

统计学使用抽样是因为得到感兴趣的整个数据集成本太高、太费时间，但是数据挖掘使用抽样是因为处理所有的数据的费用成本太高、太费时间。

抽样方法包括：简单随机抽样；分层抽样等。

维归约（降维）

数据集可能包含大量特征，选择维归约是维度降低许多数据挖掘算法的效果会更好，因为一方面是因为维归约可以删除不相关的特征并降低噪声，模型更容易理解，可视化也更容易实现；另一方面是因为维灾难。

维灾难是指：随着数据维度增加，数据在它所占据的空间中越来越系数。对于分类可能意味着没有足够的数据对象来创建模型，将所有可能的对象可靠地指派到一个类。对于聚类，点之间的密度和距离的定义失去了意义。结果是对于高维数据，许多分类算法准确率下降，聚类质量下降。

特征子集选择：

（1）嵌入方法：算法本身包含特征选择

（2）过滤方法：在数据挖掘算法运行前就进行特征选择，比如选择相关度尽可能低的属性集合。

（3）包装方法：将目标数据挖掘算法作为黑盒，并不枚举所有可能的子集来找出最佳属性子集。

（4）特征加权：也属于一种保留或删除特征的办法。特征越重要则赋予的权值越大，而不太重要的特征赋予较小的权值。

特征创建

由原来的属性创建新的属性集，从而更有效地捕获数据集中的重要信息。并且新属性可能是由多个旧属性创建的，从而数目可能比原属性少。

（1）特征提取：由原始数据创建新的特征集。比如图像识别中按照照片是否包括人脸创建新的特征。

（2）映射数据到新的空间：比如对时间序列实施傅里叶变换可以转化为频率信息明显的表示；小波变换

（3）特征构造：原始数据集具有必要的信息但是其形式不适合数据挖掘算法，在这种情况下一个或多个由原特征构造的新特征可能比原特征更有用。

离散化和二元化

1、连续变量离散化

2、对于标称变量构造哑变量进行二元化

变量变换

常用的变量变换就是规范化或者标准化。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。