线性回归求解方法比较及数据归一化标准化的方法及作用

最小二乘法和梯度下降法

之前有讲过线性回归求解的两种方法:最小二乘法和梯度下降法,这两种方法各有优缺点。梯度下降法:当数据量很大时,计算速度相对而言就很快,但有一些超参数如学习率、迭代次数要自己调整,且特征值数量级不一致时需要进行归一化处理;最小二乘法则可以直接解出结果,但是运算量大,数据量大时会很慢。

数据的归一化和标准化

在这里插入图片描述
可以看到归一化是把所有的数据全部缩放到0-1之间,而样本的标准差是所有样本和样本均值的差的平方和再除以样本数后开方得到的,显然是小于样本最大最小差值的,甚至在极端情况下为0,所以标准化的输出范围是正无穷到负无穷。
在这里插入图片描述
归一化和标准化本质上都是一种线性变换。因为对于一个特定的样本来说,它的范围、最小值、均值和方差都是一定的,所以在做归一化或者标准化的时候可以看作一次缩放,再做一次评议。而且线性变换不改变原始数据的排序,即线性关系不变。

当数据较为集中时,样本的方差小,那么标准化之后就会更加分散;如果数据本身分布就很广,那么样本方差大,数据就会被集中到更小的范围里。所以,如果对输出范围有要求或这数据较稳定且不存在极端的最大最小值,那么用归一化;如果数据存在异常值和较多噪音,可以用标准化,间接通过中心化避免异常值和极端值的影响。

那为什么要做归一化了?
因为归一化后能够更快的收敛到最优解。因为如果不归一化,梯度走的方向很可能是一个之字形,而归一化后的路线更加平缓,会更容易收敛到最优解。而且对于一些模型,还有可能提高精度。
在这里插入图片描述

Reference:

http://www.cnblogs.com/linhxx/p/8412687.html
https://www.zhihu.com/question/20467170/answer/392949674
https://www.zhihu.com/question/20455227

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值