机器学习入门：特征工程与数据降维

最新推荐文章于 2022-08-18 12:06:34 发布

pennyyangpei

最新推荐文章于 2022-08-18 12:06:34 发布

阅读量1k

点赞数 3

分类专栏：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42379006/article/details/80930165

版权

机器学习入门：特征工程与数据降维

1 为什么要进行数据预处理

01为什么要进行数据降维.png-160.1kB

1.1 数据清洗

1.1.1 数据清洗常见问题

a. 缺失值处理

b. 噪声数据处理

c. 异常值处理

d. 脏数据处理

e. 去重处理

f. ETL - extract、transform、load

g. 离群点与噪声

$~~~~~~~~$ 噪声：被测量的变量的随机误差或者方差（一般指错误的数据）
$~~~~~~~~$ 离群点：数据集中包含一些数据对象，他们与数据的一般行为或模型不一致。（正常值，但偏离大多数数据）
02离群点与噪声.png-57.2kB

h. 数据清洗常见问题简介

03常见问题简介.png-114.2kB

1.2 数据变换的一般方法

04数据变换.png-165.8kB

1.3 离群点检测

05离群点检测.png-195.9kB

1.4 数据简化

1.4.1 数据简化定义

$~~~~~~~~$ 也称为数据“规约”，指在尽可能保持数据原貌的前提下，最大限度地精简数据量，它小得多，但是保持原始数据的完整性。也就是说，在归约后的数据集上挖掘更有效果，仍然产生相同( 或几乎形同)的分析结果。注意：用于数据归约的时间不应当超过或“抵消”在归约后的数据挖掘上挖掘节省的时间。

1.4.2 数据简化常见方法

a. 维规约 - 即“降维”

$~~~~~~~~$ 也称“降维”，减少要考虑的变量及属性的个数。方法包括小波变换和主成分分析，他们把原始数据变换或投影到较小的空间。另外属性子集选择也是一种维归约方法，其中不相关、弱相关或冗余的属性或维被检测和删除。

b. 数量规约

$~~~~~~~~$ 用替代的、较小的数据表示形式替换原始数据。

c. 数据压缩

$~~~~~~~~$ 使用变换，以便得到原始数据的归约或“压缩”表示。如果原始数据可以从压缩后的数据重构，而不损失信息，则该数据归约称为无损的。反之，称之为有损的。维归约和数量归约也可以视为某种形式的数据压缩。

2 数据降维

2.1 选择合适的角度投影，你将看到更多的信息

最低0.47元/天解锁文章

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门：特征工程与数据降维

机器学习入门：特征工程与数据降维1 为什么要进行数据预处理1.1 数据清洗1.1.1 数据清洗常见问题a. 缺失值处理b. 噪声数据处理c. 异常值处理d. 脏数据处理e. 去重处理f. ETL - extract、transform、loadg. 离群点与噪声&nbsp;&nbsp;&nbsp;&nbsp;&...
复制链接

扫一扫

专栏目录

pennyyangpei CSDN认证博客专家 CSDN认证企业博客

码龄6年

81: 原创

73万+: 周排名

133万+: 总排名

41万+: 访问

: 等级

3365: 积分

290: 粉丝

284: 获赞

43: 评论

2201: 收藏

私信

关注

热门文章

分类专栏

数理统计 6篇
python爬虫 2篇
机器学习 22篇
pandas 16篇
python 12篇
matplotlib 9篇
PyMysql 1篇
Numpy 1篇
MongoDB 1篇
pyecharts 1篇
算法 19篇
项目实战 1篇

最新评论

图像分类器：基于opencv、随机森林、逻辑回归算法实现
Zhuo021128: 数据集可以分享吗？
机器学习十大算法之一：朴素贝叶斯Bayes
weixin_45103236: 请问半朴素贝叶斯如何处理连续变量
线性代数一（矩阵）
黎猫大侠: “任意一个马尔科夫矩阵都有一个特征值1。而且马尔科夫矩阵的特征值其绝对值都小于1。”这个如何证明？
用pyecharts中的Overlap叠加不同类型图表输出
ghostk1ng: overlap的图柱子盖住线条，怎么调哪个显示在最上面，怎么调图层的顺序
用pyecharts中的Overlap叠加不同类型图表输出
yuluoxingchen22: 大佬，求教一个问题：不同类型的图表成功做到overlap，但是相同类型的两个table能否overlap，如果可以具体代码是什么样的。已有2个table，分别是最近7天的日销量表、最近7天日销量环比变化表（每天和前一天的销量对比）。目前可以分别显示，但是我想叠加起来，但是没能成功。（一个靠左显示，一个靠右显示，不影响阅读）。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。