整体思路:
<1> 损失函数公式–>参数更新公式表达;
<2> 参数、损失函数等高线图由来与解释;
<3> “合力”下山的过程图。
<1> 损失函数公式–>参数更新公式表达
假设模型为:,,,其中x1,x2表示的是每条样本的两个维度,这个模型有两维特征。其中真实值为yi。
所以,损失函数为:,即。因为目的是最小化损失函数,所以可以去除常数项,得:
更新参数w1,w2.更新w1,,其中C1,C2 分别表示所有训练集第一维度的数据之和、所有第二维度的数据之和。
<2> 参数、损失函数等高线图由来与解释
每个维度的数据量级有可能是不一样的,根据更新参数的公式可得,数量级较大的维度对应的参数wj更新得会更快,更新的步长会比较大。假如第一维度的数据量级很大,第二维度的数据量级很小,那么它们对应的参数w1,w2与损失函数等高线如图,红点位置表示损失函数的最小值(“洼点”),此时的参数组取值也是最优参数组:
<3> “合力”下山的过程图
初始化参数w1,w2,每次迭代时走的长度和方向由w1,w2参数走的方向以及各自走的距离的”合力”决定,如下图,所以归一化后损失函数优化过程比较平滑,整体损失都是沿最陡的方向下降,优化的速度比较快。