文章目录
基本形式
线性模型试图学的一个通过属性的线性组合来进行预测的函数,函数形式为:
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b
向量表示
f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
我们的目标是学习得到 w w w和 b b b,这样模型就确定了。
这里有一个小技巧,我们令 x 0 = 1 x_0=1 x0=1这样,模型就可以进行简化、统一为
h θ ( x ) = θ 0 x 0 + θ 1 x 1 + . . . + θ n x n = θ T x h_\theta(x)=\theta_0x_0+\theta_1x_1+...+\theta_nx_n=\theta^Tx hθ(x)=θ0x0+θ1x1+...+θnxn=θTx
θ 0 \theta_0 θ0为截距,在sklearn中为intercept_
Cost function
定义
线性回归的损失函数有很多种形式,但都可以称为最小二乘法。最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。 (最小二乘法)
下面以sklearn的线性回归为例:
普通最小二乘法(RSS)
J ( θ ) = ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta)=\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 J(θ)=i=1∑m(hθ(x(i))−y(i))2
岭回归(Ridge)
使用了L2正则
J ( θ ) = ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 + α ∑ j = 0 n θ j 2 J(\theta)=\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\alpha\sum_{j=0}^n\theta_j^2 J(θ)=i=1∑m(hθ