版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/lilyth_lilyth/article/details/8973972
————————————————
版权声明:本文为CSDN博主「玉心sober」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lilyth_lilyth/article/details/8973972
**
1拟合的函数h(theta)和损失函数
**
**
2 、批量梯度下降的求解思路如下:(Batch gradient descent )
**
注意的是训练的所有值时m非常大。所以用到SGD随机梯度下降法(Stochastic gradient descent)
3.随机梯度下降的求解思路如下
m是用的样本
每个样本的损失函数,对theta求偏导得到对应梯度,来更新theta
3、对于上面的linear regression问题,与批量梯度下降对比,随机梯度下降求解的会是最优解吗?
(1)批量梯度下降—最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,
(2)随机梯度下降—虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。
4、梯度下降用来求最优解,哪些问题可以求得全局最优?哪些问题可能局部最优解?
对于上面的linear regression问题,最优化问题对theta的分布是unimodal,即从图形上面看只有一个peak,所以梯度下降最终求得的是全局最优解。然而对于multimodal的问题,因为存在多个peak值,很有可能梯度下降的最终结果是局部最优。
————————————————
版权声明:本文为CSDN博主「玉心sober」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/lilyth_lilyth/article/details/8973972