文章目录
线性回归建模
首先考虑一个情景,假设我们希望用线性回归预测房屋的售价。一般网上公开的房价预测数据集都至少包含房屋的面积、厅室数量等特征以及房屋的售价:
面积( x 1 x_1 x1) | 厅室数量( x 2 x_2 x2) | 价格(万元)(y) |
---|---|---|
64 | 3 | 225 |
59 | 3 | 185 |
65 | 3 | 208 |
116 | 4 | 508 |
…… | …… | …… |
对此数据,我们可以建立售价和特征属性之间的关系:
f ( x ) = w 0 + w 1 x 1 + w 2 x 2 f(x)=w_0+w_1x_1+w_2x_2 f(x)=w0+w1x1+w2x2
更一般的,假如我们有数据集:
{ ( x ( 1 ) , y ( 1 ) , ( ( x ( 2 ) , y ( 2 ) ) , . . . , ( ( x ( n ) , y ( n ) ) } x i = ( x 1 ; x 2 ; x 3 ; . . . ; x d ) , y i ∈ R \{(x^{(1)},y^{(1)},((x^{(2)},y^{(2)}),...,((x^{(n)},y^{(n)})\} \\ x_i = (x_{1};x_{2};x_{3};...;x_{d}),y_i\in R {
(x(1),y(1),((x(2),y(2)),...,((x(n),y(n))}xi=(x1;x2;x3;...;xd),yi∈R
其中,n 表示样本的个数,d表示特征的个数。则y与样本x的特征之间的关系为:
f ( x ) = w 0 + w 1 x 1 + w 2 x 2 + . . . + w d x d = ∑ i = 0 d w i x i \begin{aligned} f(x) &= w_0 + w_1x_1 + w_2x_2 + ... + w_dx_d \\ &= \sum_{i=0}^{d}w_ix_i \\ \end{aligned} f(x)=w0+w1x1+w2x2+...+wdxd=i=0∑dwixi
其中,我们假设 x 0 x_0 x0=1,下文都作此假设。
线性回归损失函数、代价函数、目标函数
- 损失函数:度量单个样本的错误程度。常用的损失函数有:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。
- 代价函数:度量所有样本的平均错误程度,也就是所有样本损失函数的均值。常用的代价函数包括均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)等。
- 目标函数:代价函数与正则化函数的结合,也是最终要优化的函数。
我们的目标是找到一组合适的w,使得 f ( x ) ≈ y f(x)\approx y f(x)≈y 。对于回归问题,有许多性能度量方法,其中常用的一个是均方误差(MSE),即:
J ( w ) = 1 2 ∑ j = 1 n ( f w ( x ( j ) ) − y ( j ) ) 2 J(w)=\frac{1}{2}\sum_{j=1}^{n}(f_{w}(x^{(j)})-y^{(j)})^2 J(w)=21j=1∑n(fw(x(j))−y(j))2
我们称 J ( w ) J(w) J(w)为代价函数。注意到式子的系数不是1/n而是1/2,数是因为求导后的 J ′ ( w ) J'(w) J′(w) 系数为1,方便后续计算。为什么均方误差可以作为性能度量?可以从极大似然估计(概率角度)入手。
为了能够能精确的表达特征和目标值y的关系,引入了误差项ϵ,表示模型受到的未观测到的因素的影响。于是我们可以假设:
y ( i ) = w T x ( i ) + ϵ ( i ) y^{(i)} = w^T x^{(i)}+\epsilon^{(i)} y(i)=wTx(i)+ϵ(i)
使用回归模型需要满足许多前提假设,其中一个是要求ϵ独立同分布,且服从 N ( 0 , σ 2 ) N(0, σ^2) N(0,σ2)的高斯分布(正态分布):
p ( ϵ ( i ) ) = 1 2 π σ e x p ( − ( ϵ ( i ) ) 2 2 σ 2 ) p(\epsilon^{(i)}) = \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(\epsilon^{(i)})^2}{2\sigma^2}\right) p(ϵ(i))=2πσ1exp(−2σ2(ϵ(i))2)
所以在给定w和x的前提下, y ( i ) y^{(i)} y(i) 服从 N ( w T x ( i ) , σ 2 ) N(w^T x^{(i)}, σ^2) N(wTx(i),σ2)的正态分布。
p ( y ( i ) ∣ x ( i ) ; w ) = 1 2 π σ e x p ( − ( y ( i ) − w T x ( i ) ) 2 2 σ 2 ) p(y^{(i)}|x^{(i)};w) = \frac{1}{\sqrt{2\pi}\sigma}exp\left(-\frac{(y^{(i)}-w^T x^{(i)})^2}{2\sigma^2}\right) p(y(i)∣x(i);w)=2πσ1exp(−2σ2(y(i)−wTx(i))2)
现在我们已经知道$y^{(i)} $的分布,但是我们不知道他的参数 w T x ( i ) , σ 2 w^T x^{(i)}, σ^2 wTx(i),σ2 ,极大似然估计法来正是用来解决此类问题的,假设样本独立同分布,最大化似然函数,来进行参数估计。最大化似然函数的原理说简单点就是在一次观测中,发生了的事件其概率应该大。概率大的事在观测中容易发生,所以我们希望让每一个 p ( y ( i ) ∣ x ( i ) ; w ) p(y^{(i)}|x^{(i)};w) p(y(i)∣x(i);w)都最大化,这等效于他们的乘积最大化。于是不难得到似然函数:
L ( w ) = ∏ i = 1 n 1 2 π σ e x p ( − ( y ( i