目录
常用于优化问题求解。沿着梯度反方向。
一、梯度下降通俗解释
1、解释
当我们得到了一个目标函数后,如何进行求解? 直接求解?(并不一定可解,线性回归可以当做是一个特例)。
2、常规套路
机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做。
3、如何优化
我们要一步步的完成迭代 (每次迭代都应找到梯度方向),直到到达饱和状态为止。
二、参数更新方法
梯度下降
1、目标函数
2、寻找山谷的最低点
也就是我们的目标函数的终点 (什么样的参数能使得目标函数达到极值点)
3、下山步骤(更新参数)
- 找到当前最合适的方向
- 走那么一小步,走快了该”跌倒 ”了(方向不好)
- 按照方向与步伐去更新我们的参数
目标函数
1、批量梯度下降:
(容易得到最优解,但是由于每次考虑所有样本,速度很慢)
2、随机梯度下降
(每次找一个样本,迭代速度快,有离群点、噪音点,不一定每次都朝着收敛的方向)
3、小批量梯度下降法
batch 256、128、64
每次更新选择一小部分数据来算,实用。
三、优化参数设置
学习率(步长)
对结果会产生巨大的影响,一般小一些。
批处理数量:32,64,128都可以,很多 时候还得考虑内存和效率