从知乎大佬那边学习到,这边做下笔记!
训练集 ,学习算法 ,损失函数是
对上述式子求梯度:
我们想证明使用SGD(随机梯度下降)算法求得的梯度,它的期望等于使用梯度下降求得的梯度。(注意:这里的SGD是广义上的SGD,包括了batch_size=1的随机梯度下降以及mini-batch梯度下降算法)
不妨设SGD中batch_size为m,即证明 :
根据期望的一个公式;E[X+Y]=E[X]+E[Y] 我们易得到:
在根据期望的定义:
在SGD中,由于每个样本都是从训练集中随机选择,所以每个样本被选择的概率均为 可得
其中,因此
由此可以继续推的:
证毕!SGD中梯度期望等于GD的梯度证明!