matlab 均值中心化,数据预处理之中心化（零均值化）与标准化（归一化）

最新推荐文章于 2022-09-08 19:08:30 发布

迷茫小强

最新推荐文章于 2022-09-08 19:08:30 发布

阅读量5.8k

点赞数 2

文章标签： matlab 均值中心化

在机器学习回归问题，以及训练神经网络过程中，通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理。

背景

在数据挖掘数据处理过程中，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

目的

通过中心化和标准化处理，最终得到均值为0，标准差为1的服从标准正态分布的数据。可以取消由于量纲不同、自身变异或者数值相差较大所引起的误差。

原理

中心化(又叫零均值化)：是指变量减去它的均值。其实就是一个平移的过程，平移后所有数据的中心是(0，0)。

标准化(又叫归一化)：是指数值减去均值，再除以标准差。

意义 - 为何需要这些预处理

在一些实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个特征来表征的。比如在预测房价的问题中，影响房价的因素(特征)有房子面积、卧室数量等，很显然，这些特征的量纲和数值得量级都是不一样的，在预测房价时，如果直接使用原始的数据值，那么他们对房价的影响程度将是不一样的，而通过标准化处理，可以使得不同的特征具有相同的尺度(Scale)。简言之，当原始数据不同维度上的特征的尺度(单位)不一致时，需要标准化步骤对数据进行预处理。

下图中以二维数据为例：左图表示的是原始数据；中间的是中心化后的数据，数据被移动大原点周围；右图将中心化后的数据除以标准差，得到为标准

最低0.47元/天解锁文章

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
matlab 均值中心化,数据预处理之中心化（零均值化）与标准化（归一化）

在机器学习回归问题，以及训练神经网络过程中，通常需要对原始数据进行中心化(零均值化)与标准化(归一化)处理。背景在数据挖掘数据处理过程中，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。目的通过中心化和标准化处理，最终...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。