机器学习强基计划0-6：盘点最常见的7种数据预处理方法和原理

Mr.Winter`

已于 2022-08-17 21:17:32 修改

阅读量3.4k

点赞数 26

分类专栏：机器学习强基计划文章标签： python 爬虫正则表达式人工智能机器学习

于 2021-11-23 09:19:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/FRIGIDWINTER/article/details/121474826

版权

机器学习强基计划专栏收录该内容

51 篇文章 204 订阅 ¥89.90 ¥99.00

订阅专栏

本文介绍了机器学习中的数据预处理方法，包括数据规范化、类别平衡化、连续值离散化、缺失值处理、哑言编码、正则化和数据降维。数据预处理对于提高模型精度、稳定性和收敛速度至关重要。文章详细讲解了最值归一化、Z-Score规范化、阈值移动、欠采样与过采样、连续值离散化策略、L1和L2正则化以及PCA降维的原理和应用场景。

摘要由CSDN通过智能技术生成

目录

0 写在前面
1 数据规范化
- 1.1 最值归一化
- 1.2 Z-Score规范化
2 类别平衡化
3 连续值离散化
4 缺失值处理
5 哑言编码
6 正则化
- 6.1 L1正则
- 6.2 L2正则
7 数据降维

0 写在前面

机器学习强基计划聚焦深度和广度，加深对机器学习模型的理解与应用。“深”在详细推导算法模型背后的数学原理；“广”在分析多个机器学习模型：决策树、支持向量机、贝叶斯与马尔科夫决策、强化学习等。强基计划实现从理论到实践的全面覆盖，由本人亲自从底层编写、测试与文章配套的各个经典算法，不依赖于现有库，可以大大加深对算法的理解。

🚀详情：机器学习强基计划(附几十种经典模型源码)

1 数据规范化

量纲，指将一个物理导出量用若干基本量的乘方之积表示出来的表达式。数据的比较需要关注两点——绝对数值和量纲，而特征间因为量纲的存在导致无法直接通过绝对数值比较大小，也就无法判断特征间的重要性。例如若某个特征的方差比其他特征大几个数量级，那么它就会在学习算法中占据主导位置而弱化了其他特征，甚至导致模型无法收敛。

无量纲化Nondimensionalization)的数据预处理方式可以让特征间拥有相同权重——从绝对数值比较转换为相对数值比较，不再受量纲影响，从而提高模型精度、稳定性，加快收敛速度。无量纲化的主要方式是

了解本专栏

关注

26
点赞
踩
38

收藏

觉得还不错? 一键收藏
打赏
8
评论
机器学习强基计划0-6：盘点最常见的7种数据预处理方法和原理

盘点七大机器学习预处理方法和原理，包含数据规范化、类别平衡化、连续值离散化、缺失值处理、哑言编码、正则化、数据降维等
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Mr.Winter` 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。