机器学习总结之——标准化与归一化的区别

最新推荐文章于 2024-04-28 22:10:23 发布

Greatpanc

最新推荐文章于 2024-04-28 22:10:23 发布

阅读量3k

点赞数 1

文章标签：机器学习标准化归一化标准化与归一化过程缺失数据处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42715356/article/details/82892929

版权

机器学习算法总结专栏收录该内容

7 篇文章 1 订阅

订阅专栏

机器学习总结之——标准化与归一化的区别

1、标准化

简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。公式如下：
$x'=\frac{x-X}{S}（其中X代表样本均值，S代表样本方差）$
矩阵的列处理数据的理解，在特征矩阵中对列进行处理一般代表同时对一个样本各个特征进行同样的处理。（此处不能理解，为什么标准化是要对矩阵列进行相同的处理，是因为样本中各个属性对于样本的分布进行标准化吗，查找了很多资料没有找到相关的说明）

2、归一化

归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。归一化利用了边界值信息，将特征的取值区间缩放到[0, 1]范围内。公式如下：
$x'=\frac{x-Min}{Max-Min}（其中Min代表样本最小值，Max代表样本最大值）$
矩阵的行处理数据的理解，在特征矩阵中对行行进行处理一般代表同时对样本集中某个特征属性内的所有数据进行处理，因为归一化是将数据进行缩放，使数据某个特征向量（即该属性集内数据）的数据关系保持不变，即需要对整行内数据同时进行操作。

3、标准化与归一化过程中特征向量的缺失值处理

3.1缺失值较多的情况

直接将该特征舍弃掉，否则可能反倒会带入较大的noise（噪音），对结果造成不良影响。

3.2缺失值较少的情况

如果特征缺失值在10%以内，我们可以采取很多的方式来处理:

把NaN直接作为一个特征，假设用0表示；
缺失特征值用样本（或者缺失前后）特征均值进行填充；
保持上一个特征值不变；
用另外训练一个模型（如随机森林）进行预测填充。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习总结之——标准化与归一化的区别

机器学习总结之——标准化与归一化的区别1、标准化简单来说，标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。标准化的前提是特征值服从正态分布，标准化后，其转换成标准正态分布。公式如下：x′=x−XS（其中X代表样本均值，S代表样本方差）x&amp;amp;#x27;=\frac{x-X}{S}（其中X代表样本均值，S代表样本方差）x′=Sx−X（其...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。