运行环境
使用环境:python3.8
平台:Windows10
IDE:PyCharm
书中片段
理解
此处定义了模型参数θ的迭代方法,其实我们对于此书中的3.1节线性回归求解的目的就是得到最优的θ值来拟合我们的数据集,求解θ的方法便是进行θ的迭代
Θ即(w1,w2,b)的初始值在本节中是:将权重(即w1,w2)初始化成均值为0、标准差为0.01的正态随机数,偏差(即b)则初始化成0。
然后根据随机抽取训练集中的10个样本来进行优化Θ
上式优化的含义为:
用上一次的Θ(第一次执行优化函数时此Θ便是初始时的Θ)减去损失函数对Θ的梯度
提出问题
那么为什么这么做可以来优化Θ值呢?
解释:
- 损失函数对Θ的梯度,反映了损失函数随着Θ下降的方向,打个比方:当梯度为正数时,说明损失函数随着Θ的减小而减小(虽然不能说是正相关或者正比,但是是这种意思)
- 根据第一条,用Θ减去梯度,则可以使得损失函数向小的方向收敛
- 那么为什么要引入学习效率 η呢?原因是:当梯度过大时Θ减去梯度可能会导致Θ走向另一个极端,从过大变成过小,从而导致无法收敛,所以需要引入学习效率η来控制每一次迭代(优化)的Θ改变量。