batch gradient:对于所有data example计算gradient
Stochastic gradient:对于单个data计算gradient
small group gradient:介于两者之间,对于10-100个data计算gradient
当数据量较大的时候,不适合使用batch gradient,因为运算速度太慢。
Stochastic gradient convergence:
1. cost=
12(hθ(xi)−yi)2
2. During learning, 在使用新的
(xi,yi)
计算
θ
之前计算该数据相应的cost。
3. Every 1000 interations, plot cost。
4. 可以设定learning rate:
α=const1interationNumber+const2
这样可以使Stochastic gradient逐渐收敛到全局最有点。