梯度下降法的原理:
- 训练模型指的是找到使成本函数(所有样本损失函数的平均值)最小时的参数w,b。
- 梯度下降法作用在什么地方呢?作用在上述训练阶段,即在反向传播更新参数的过程中,每一步下降中根据下降最快的方向然后更新w,b。
具体为:
repeat{
w:=w-αdJ/dw;
b:=b-αdJ/dw;
}
- 训练模型的目的是什么?不是找到最好的w和b吗?
随机梯度下降法的应用:
在n个训练样本中,执行一次参数更新需要遍历n个样本,计算n个样本的反向传播值即偏导,然后再进行参数更新。
梯度下降法的原理:
具体为:
repeat{
w:=w-αdJ/dw;
b:=b-αdJ/dw;
}