在大规模机器学习问题中,很多算法最终都归结为一个这样的优化问题:
minimizeω∈Rpg(ω):=1n∑i=1nfi(ω).
其中 p 维向量
fi(ω)=(yi−ωTxi)2,
在逻辑回归中
fi(ω)=−yiωTxi+log(1+exp(ωTxi)),
λ 为正则化系数。在SVM中
fi(ω)=Lhinge(1−yiωTxi).
这一类问题可以用一般的梯度型优化算法来求解,如梯度下降法(Gradient Descent, GD).其迭代格式为
ω(k+1)=ω(k)−αk∇g(ω