为什么归一化能提高梯度下降法求最优解的速度?

整体思路:
<1> 损失函数公式–>参数更新公式表达;
<2> 参数、损失函数等高线图由来与解释;
<3> “合力”下山的过程图。

<1> 损失函数公式–>参数更新公式表达
假设模型为:在这里插入图片描述,,,其中x1,x2表示的是每条样本的两个维度,这个模型有两维特征。其中真实值为yi。
所以,损失函数为:在这里插入图片描述,即在这里插入图片描述。因为目的是最小化损失函数,所以可以去除常数项,得:在这里插入图片描述

更新参数w1,w2.更新w1,在这里插入图片描述,其中C1,C2 分别表示所有训练集第一维度的数据之和、所有第二维度的数据之和。
<2> 参数、损失函数等高线图由来与解释
每个维度的数据量级有可能是不一样的,根据更新参数的公式可得,数量级较大的维度对应的参数wj更新得会更快,更新的步长会比较大。假如第一维度的数据量级很大,第二维度的数据量级很小,那么它们对应的参数w1,w2与损失函数等高线如图,红点位置表示损失函数的最小值(“洼点”),此时的参数组取值也是最优参数组:
在这里插入图片描述
<3> “合力”下山的过程图
初始化参数w1,w2,每次迭代时走的长度和方向由w1,w2参数走的方向以及各自走的距离的”合力”决定,如下图,所以归一化后损失函数优化过程比较平滑,整体损失都是沿最陡的方向下降,优化的速度比较快。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值