梯度下降
引言
跟同事交流发现,大家对最简单的并没有理解更深刻,描述的也是模棱两可,去搜索资料也是讲的很大,于是在地铁上写了这个,最最通俗的解释,希望能有帮助
梯度下降工作原理
参数设定
1.假设激活函数h=tx
2.t=t-J’t
3.J代价函数
正文
1.首先设定参数t =0,那么现在线性拟合的图像就是和x轴重合,所以代价函数就是最大值,
2.目标需要线性图像逐渐向上倾斜接近样本节点,那么需要t不断增大,也就是斜率逐渐增大,此时的代价函数处在逐渐减小的过程,那么,导数是小于0
3.更新t参数,由于代价函数导数小于零,那么t逐渐增大,所以线性图像会逐渐向y轴倾斜,这样一定能达到一个代价函数最低点
4. 当代价函数处于最低点的时候,倘若没有停止剃度,那么代价函数就会逐渐增大,因为代价函数逐渐增大,所以代价函数的导数大于0
5.因为导数大于零,所以t更新时,逐渐偏小,斜率逐渐降低,线性图像逐渐偏向x,这时候代价函数又会逐渐减小。又起到了代价函数逐渐梯度下降的现象。
6.因为学习率设置不同,所以步长也不同,所以可能恰好略过最右点,但是一旦错过最右点,代价函数值就会增大,相应的t就会减小,图像就会向x轴倾斜,所以代价函数图像又会逐渐趋向最优点了。以此反复,定会达到最优点。