此为转载文章,虽然算法的讲解不是很详细和明了,但是通过自己的理解和琢磨,也很大程度地帮助了我理解了SGD,所以还是值得转的
1.当然求最小值就是梯度下降,而求最大值相对就是梯度上升。
2.由于,如果,那么得到
现在我们要找一组,使得所有的最接近,设
现在我们要找一组,使得最小。这就是今天要介绍的梯度下降。
梯度下降的原理是这样的:首先对于向量赋初值,可以赋随机值,也可以全赋为0,然后改变的值,使得
按梯度下降最快的方向进行,一直迭代下去最终会得到局部最小值。即
表示梯度最陡的那个方向,表示步长,也就是说每次向下降最快的方向走多远。进一步有
所以
简化一下就是
随机梯度下降算法
http://blog.csdn.net/lilyth_lilyth/article/details/8973972
这篇文章简单介绍和比较了批量梯度下降和随机梯度下降,可以看看