1.梯度下降
可以用一种更系统的方法找到w和b的值。j of w,b
学习这两个梯度下降将使你掌握机器学习中最重要的构建块之一
成本函数都是以弓形或者吊床形
但是这种是训练神经网络时可能会得到的一种成本函数
梯度下降就是360度环视自己,尽快下去,要朝哪个方向走,在下一个点后继续执行这个步骤,直到走到最低点
这两个点都叫局部最小值,因为沿着各自的道路无法到达另一个点
2.实现梯度下降
等号为赋值号
α被称为学习率,在0~1中间,如果α非常大,那么对应着一个非常激进的梯度下降过程,你正在尝试巨大的步骤下坡,α小反之
α后面的为导数项
这是b在更新时的公式
梯度下降时重复执行这些公式,知道到达底部,即为函数收敛
3.梯度下降的直观理解
导数项就是切线的斜率
4学习率
学习率如果过小,那么将进行的很慢。
学习率如果过大,则可能会过冲,可能永远不会达到最小值。另一种说法,大交叉可能无法收敛,甚至可能发散。
当到底部时,导数为零,将不会变化,即到达最小值,学习率将不会变化。
所以当下降的时候,越低将采用越小的步长,这就是梯度下降
4.5.线性回归中的梯度下降
4.6.运行梯度下降
batch:指的是在梯度下降的每一步中,我们都在查看所有的训练示例。