目标函数:
变化量:
gradient vector
以上三个公式推出:
设定:
<= 0
所以C不断减小
回顾目标函数:
是平均的cost
权重和偏向更新方程:
对于每个训练实例x, 都要j计算梯度向量gradient vector: ∇C
如果训练数据集过大, 会花费很长时间,学习过程太慢
所以, 一个变种称为:
随机梯度下降算法 (stochastic gradient descent):
基本思想: 从所有训练实例中取一个小的采样(sample): X1,X2,…,Xm (mini-batch)
来估计 ∇C, 大大提高学习速度
举例: 选举调查
如果样本够大,
代入更新方程:
然后,重新选择一个mini-batch用来训练,直到用完所有的训练实例,一轮epoch完成