1.梯度下降算法的理解
1)预测函数:线性回归表达式中Y = WiX + B(Wi=W1,W2……WN),Wi表示权重,Y表示输出值,也成为预测值。而X表示输入值,也成为样本特征值。B在此处称为截距项,目的在于使得训练出的模型必定通过定点,提升了模型的适用范围。
2)损失函数:用于评估训练出的模型的拟合程度。在机器学习中,梯度下降法的根本目是在迭代中寻找损失函数的最小值,并通过反向传播的方式调整各个权重的大小,知道模型拟合程度达到指定要求。
3)步长:步长决定了在梯度下降的过程中沿梯度负方向移动的距离,也就是对应于上文中所提到的两次测量最陡路径之间的距离,在机器学习中也被成为学习率。
2.运用梯度下降算法:
First: 确认预测函数。本例设定的预测函数为Y (X1.X2,……XN)= W1X1 + W2X2……WNXN +B(其中W为模型参数)。如果加入特征项B,也就是截距,使预测函数在一定的范围内
Second: 确认损失函数。确定了预测函数之后,此处使用均方损失函数 :
L(Wi,B)=1/2N*(Yi-Y) ^2 . 其中Yi表示预测值,Y表示标准值。在1/2N中,1/2目的在于对L进行求导是使得导数的系数为1,因为N代表输入个数并且已知,所以此处1/2N 是求损失函数损失数值的平均值
Third:初始化参数。上式中我们设置初始化参数Wi设置为1,步长为0.1。这些参数会在后续的迭代中不断进行优化
End: 进行梯度下降计算。也就是求损失函数的偏导数。对于Wi,其梯度表达式为:dL/dWi
学习率与损失梯度的乘积。每次迭代都要更新参数Wi(权重),B(截距项)。最后所求的局部最小值或即为较小的损失值,模型的拟合率也越高