python特征归一化与标准化

IceelfLuo

于 2020-08-05 14:10:33 发布

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IceelfLuo/article/details/107810823

综述

特征处理中，归一化和标准化是不变的话题。最近看了不少归一化和标准化相关的文献，发现还是有点坑的。但是我不管也不打算讲清楚这俩的区别，当工业界模型要求不高，数据量又大的时候，冲上去一通操作就行了。不过我们还是要掌握最基础的知识：

概念

归一化：归一化方法有两种形式，一种是把数变为（0，1）之间的小数，一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。

标准化：在机器学习中，我们处理的数据可能是高维度的，再这样的前提下，我们会考虑标准化方法，使之变成每个特征数值平均为0，标准差为1的状态。这个方法被广泛的使用在许多机器学习算法中(ex：SVM，LR和类神经网络)。

区别：归一化的核心是统一量纲，构建了原数据到[0,1]（或[-1,1]）区间内的一个映射。而标准化则是通过特征矩阵的列处理数据，通过z-score将样本整体转换。有一说标准化是将数据转换为标正态分布，但我认为标准化数据不会改变数据的分布，如果原来的数据不是正态分布，标准化后是得不到标准正态分布的。
两者相同点是都能消除量纲产生的误差，都是线性变换。只是线性变换的具体形式不一样。

公式

现有的资料一般会列出如下四条公式：
Rescaling (min-max normalization)
$x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}$
Mean normalization
$x^{\prime}=\frac{x-\operatorname{mean}(x)}{\max (x)-\min (x)}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。