随机梯度上升(下降)算法推导过程:
使用的一些变量,类别标签向量
y
,数据集样本矩阵
那么我们的目标就是损失(代价)函数cost function(lost function)最小化,也就是
f=eTe
最小,进一步地,也就是似然函数最大
−12eTe
最大,
f(W) = argmaxω ∈ W = −12eTe = −12(y−XW)T(y−XW) = −12(yTy−yTXW−WTXTy+WTXTXW)
则梯度为,
∂f(ω)∂ω = −12(2XTXW−2XTy) = XT(y−XW) = XTe
由此得,
W = W+αXTe = W+α∇ωf(ω)