个人博客文章链接:http://www.huqj.top/article?id=162
梯度下降法(gradient descent),是机器学习中最常用的参数调优算法,所谓梯度下降,就是对于一个模型的代价函数而言,从某个初始参数开始,逐渐将参数朝“使得代价函数减小最快”的方向调整,使得代价函数最终稳定在某个值左右。
举个例子,对于训练集数据:
1 |
|
它的离散图像大致如下:
如果我们需要用一个函数来拟合它,那么最好是用一个二次或者更高次函数,假设我们使用二次函数:
y = θ0 + θ1x + θ2x2
来作为模型的函数表达式,那么我们就需要确定三个参数分别是多少才能够最大程度的符合训练数据,对于一次函数而言,我们知道可以使用最小二乘法来计算参数,同样,对于二次函数也有相应的数学方法可以确定参数值,但是一方面这样做不具有通用性,另一方面,也可能会出现没有最优解的情况,因此梯度下降法成为了一个较好的选择,它使用迭代的方式使得代价函数逐步减小,直到稳定在最小值附近,这样就可以得到参数的较优解。
梯度下降的数学原理如下:
①假设模型函数为 y = hθ(X),其中θ和X都是n维向量。
②代价函数表示当取某个θ向量作为参数时,模型计算出的结果和实际结果的误差,通常使用如下的函数来表示: