一、参考
https://download.csdn.net/download/nominior/10759025
http://open.163.com/movie/2008/1/B/O/M6SGF6VB4_M6SGHJ9BO.html
二、
线性回归
基本表示:
x:特征/输入变量/自变量
y:目标变量/观测值
h(x):假设/模型/函数
对于特征x,xi表示该特征的第i个样本输入,xj表示在多特征回归中的第j个特征,xij表示第j个特征的第i个样本输入。i<=m(样本数);j<=n(特征数)。
单变量回归模型表示:
其中x0 = 1
该表达式基于线性回归方程原理,为了便于后续表达,将a的系数1用表示
多变量/特征线性回归模型表示
与单变量线性回归模型基本一致,只是增加了特征,并用向量表示;初始向量为列向量;=1。
损失函数表示:均方差/MSE
改表达式基于均方差原理,求各样本输出结果与观察值间差距平方和,用于表示模型的准确度,在模型中,我们的最终目的是通过各种方法调整参数的值,使得整体最小,以使模型最优,并不是求出的大小,所以为了后续计算,添加系数。
损失函数求优:梯度下降/Gradient Descent
该表达式中:=代表计算机程序中的赋值,模型就是通过不断赋值调整参数的;
表示 的梯度的一部分,梯度是一个向量,是由损失函数对、、……等n+1个参数求偏导后按序形成的n+1维向量,由于梯度的变化率最大(实在搞不懂如何证明的,姑且认为兼顾了所有维度的切向吧),每个参数减去梯度对应的部分,会使参数下降最快;
注意的是,虽然求偏导及每个更新公式只涉及单独的,但中包括所有的,所以参数的更新要同时进行,不可以在更新完的值后,将其带入再更新其他参数(在代码实现时一般用中间变量存储各个参数,当所有参数计算完毕后再一起更新);
其中α为学习率,代表每次沿梯度下降的幅度,虽然从整体上讲,由于偏导数的存在,会使参数在接近最优解时更新变慢,但是仍然存在α设置过小,整体更新慢,α设置过大,在最优解附近徘徊,无法收敛的问题。
由于每次更新需要用到所有样本,这个更新方法在梯度下降中也称为批量梯度下降。