线性回归(LinearRegression)、梯度下降(GD)、随机梯度下降(SGD)与批量梯度下降(MinibatchGD)原理

本节只简要讲述原理,下一篇附有代码和图形比较说明。

输入向量

                               

                               

残差平方和(Residual sum of squares)

                             

矩阵表达式:

                            

                            

                            

                            

                            

线性回归的标准方程法可以直接从上述推导中得到:

                           

 

梯度下降法的每一次迭代需要遍历整个数据集计算后更新一次参数,其中 为学习率:

                                                      

                                                      

                                                     

显然当数据集非常大的时候,梯度下降的每次更新都十分消耗计算资源,而且也容易发现它在收敛的速度非常的慢。因此就有了随机梯度下降算法。

随机梯度下降(online)在一次迭代过程中:每次更新参数并不是遍历所有数据,而是遍历每个数据更新一次参数,直到遍历完毕后将数据集打乱继续进行下一次迭代,维基百科伪代码如下:

                                                 

批量梯度下降与随机梯度下降有所不同,每一次迭代过程遍历的不是全部数据集,而是打乱后的数据集的子集,对子集进行遍历,每遍历一条数据更新一次参数。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值