监督学习应用——梯度下降(和线性回归是什么关系?)
- 自动驾驶可以说的一个监督学习的例子,因为人类司机提供的正确驾驶方向就是数据集中的正确答案
梯度下降算法——第一个监督学习算法
- 思想:
- 构造出误差表示函数之后,向误差下降最快的方向走
- 性质:
- 一定会结束
- 起点不同,最后结束时得到的局部最优值可能不同。即梯度下降的结果有时会依赖于参数的初始值
- 当接近局部最小值时,步子会越来越小(因为每次下降都会乘以梯度,局部最小值处的梯度为0。一般情况下,越接近局部最小值的梯度越小,直到变成0,所以步子会越来越小)(实际上并没有环视一周,反正是和求偏导数有密切的关系)
- 做法:
- 构建误差函数
- 每一次都向着是误差函数减少最多的方向前进(这样就涉及到对误差函数求导),每到新的一步都有一个环视360度,这个动作就是在找梯度下降最快的方向
- 最终达到局部最优
- 批梯度下降算法
- 批(batch)并不是一个好词,它指的是每次下降都要遍历整个训练集合,所以这种算法不适合大训练集的情况
- 对于大规模数据集,应该采用随机梯度下降算法,也称作增量梯度下降算法。
- 缺点是不会精确地收敛到全局最小值
- 下降的过程中还可能会“上升”
- 最后可能在最小值附近徘徊