1.基本形式
对含有 n n n个属性的样本x= ( x 1 ; x 2 ; . . . ; x n ) \left ( x_{1} ;x_{2};...;x_{n}\right ) (x1;x2;...;xn),线性模型将通过属性的线性组合 f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w n x n + b f\left (\mathbf{ x }\right )=w_{1}x_{1}+w_{2}x_{2}+...+w_{n}x_{n}+b f(x)=w1x1+w2x2+...+wnxn+b来对未知样本进行预测。为了形式上的简洁,一般采用向量形式写成 f ( x ) = w T x + b f\left (\mathbf{ x }\right )=w^{T}\mathbf{x}+b f(x)=wTx+b,其中 w = ( w 1 ; w 2 ; w 3 . . . ; w n ) \mathbf{w}=\left ( w_{1} ;w_{2};w_{3}...;w_{n}\right ) w=(w1;w2;w3...;wn)(ps:在机器学习或者深度学习中,向量一般都是写成列向量的形式)。得到以上的线性模型的表达形式,下一步就是求解 w \mathbf{w} w和b,模型表达式最终也能因此确立。如何确定参数,关键是如何衡量 f ( x ) f\left (\mathbf{ x }\right ) f(x)与实际的输出 y y y之间的差别,因此我们采用均方误差进行参数的度量:
l o s s f u n c t i o n = ∑ i = 1 m ( f ( x i ) − y i ) 2 loss function=\sum_{i=1}^{m}\left ( f\left ( x^{i} \right )-y^{i} \right )^{2} lossfunction=∑i=1m(f(xi)−yi)2
其中 m m m表示样本个数, i i i上角标表示第 i i i个样本。那么我们优化的过程就是是的 l o s s f u n c t i o n loss function lossfunction越小越好。以下采用两种方法来优化参数。
2.1定义法
根据梯度下降的公式:
[ w 1 j ; w 2 j . . . ; w n j ] = [ w 1 j − 1 ; w 2 j − 1 . . . ; w n j − 1 ] − η [ ∂ L ∂ w 1 j − 1 ; ∂ L ∂ w 2 j − 1 . . . ; ∂ L ∂ w n j − 1 ] \left [ w_{1}^{j};w_{2}^{j}...;w_{n}^{j} \right ]=\left [ w_{1}^{j-1};w_{2}^{j-1}...;w_{n}^{j-1} \right ]-\eta \left [ \frac{\partial L}{\partial w_{1}^{