【机器学习】回归过程中的数据标准化

最近一直很困惑,因为有些资料在进行回归的时候,往往需要数据标准化。然而也有些资料说对于线性回归是不需要标准化。在查询了大量的资料后,准备在这篇博客上做一个总结。

为什么要数据标准化

数据标准化的原理往往是来自于独立连续变量的量纲。举一个例子,如果我们要对人口进行回归,采取“个数”的量纲和“百万个”的量纲得到的回归系数会差的相当大。而进行处理时,采取“个数”的量纲的回归系数太小。这时候便有必要需要对原始数据进行标准化,使得每个变量有相同的范围或者方差。

关于数据标准化,中心化

标准化: 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值。 常用的标准化有:Min-Max scaling, Z score

中心化:即变量减去它的均值,对数据进行平移。

这里写图片描述

什么时候对数据中心化呢

  1. 在聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。

  2. 在PCA降维操作之前。在主成分PCA分析之前,对变量进行标准化至关重要。 这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而 标准化原始数据会产生相同的方差&#

评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值