1.1 线性模型基础
1.1.1 线性模型基本形式
1.1.1.1 线性模型定义
线性模型(linear model):对于给定
d
d
d个属性描述的实例
x
=
(
x
1
;
x
2
;
⋯
;
x
d
)
x=(x_1;x_2;\cdots;x_d)
x=(x1;x2;⋯;xd),其中,
x
i
x_i
xi是
x
x
x在第
i
i
i个属性上的取值,通过属性的线性组合来预测的函数叫线性模型。
非线性模型:在线性模型的基础上引入层级结构或者高维映射
1.1.1.2 线性模型的向量表示
f
(
x
)
=
w
T
x
+
b
f(x)=w^{\rm T}x+b
f(x)=wTx+b
其中,
w
=
(
w
1
;
w
2
;
w
3
;
…
;
w
d
)
w=(w_1;w_2;w_3;\dots;w_d)
w=(w1;w2;w3;…;wd)。
w
w
w表示的是特征向量的权重weight,
b
b
b表示的是偏值bias
举例:在西瓜问题中,如何判断一个西瓜是否是好西瓜,则可以表示成线性模型: $$ f_{好瓜}(x)=\cdot x_{色泽}+0.5 \cdot x_{根蒂}+0.3\cdot x_{敲声}+1 $$
1.1.2 线性回归
1.1.2.1 线性回归的定义
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } D=\{(x_1, y_1), (x_2, y_2), \cdots, (x_m, y_m)\} D={(x1,y1),(x2,y2),⋯,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; ⋯ ; x i d ) , y i ∈ R x_i=(x_{i1};x_{i2};\cdots;x_{id}), y_i\in R xi=(xi1;xi2;⋯;xid),yi∈R,试图学习得到一个线性模型以尽可能准确的预计实值输出标记的模型叫线性回归模型(linear regression)
1.1.2.2 线性回归的核心问题
f ( x i ) = w x i + b f(x_i)=wx_i+b f(xi)=wxi+b
确定上式中
w
w
w,
b
b
b的值,使得
f
(
x
i
)
≃
y
i
f(x_i)≃y_i
f(xi)≃yi
目标:让均方误差最小化
设
(
w
∗
,
b
∗
)
(w^*, b^*)
(w∗,b∗)为
(
w
,
b
)
(w,b)
(w,b)的解,即:
(
w
∗
,
b
∗
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
(w^*, b^*) = \arg \min_{(w, b)}\sum^m_{i=1}(f(x_i)-y_i)^2\\ = \arg\min_{(w, b)}\sum^m_{i=1}(y_i-wx_i-b)^2
(w∗,b∗)=arg(w,b)mini=1∑m(f(xi)−yi)2=arg(w,b)mini=1∑m(yi−wxi−b)2
1.1.2.3 线性回归的解决方法——最小二乘法(least square method)
求解
w
w
w和
b
b
b使得函数
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
E_{(w, b)} = \sum^m_{i=1}(y_i-wx_i-b)^2
E(w,b)=i=1∑m(yi−wxi−b)2
最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation).
将上式分别对
w
w
w,
b
b
b求偏导可得:
∂
E
(
w
,
b
)
∂
w
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
∂
E
(
w
,
b
)
∂
b
=
2
(
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
)
\frac{\partial E_{(w, b)}}{\partial w} = 2\left(w\sum_{i=1}^mx_i^2 - \sum_{i=1}^m(y_i-b)x_i\right)\\[2ex] \frac{\partial E_{(w, b)}}{\partial b} = 2\left(mb-\sum_{i=1}^m(y_i-wx_i)\right)
∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))
分别令偏导数等于零,即:
∂
E
(
w
,
b
)
∂
w
=
0
∂
E
(
w
,
b
)
∂
b
=
0
\frac{\partial E_{(w, b)}}{\partial w} =0\\[2ex]\frac{\partial E_{(w, b)}}{\partial b} =0
∂w∂E(w,b)=0∂b∂E(w,b)=0
即可得到
w
w
w,
b
b
b的最优解闭式:
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
‾
)
∑
i
=
1
m
x
i
2
−
1
m
(
∑
i
=
1
m
x
i
2
)
w = \frac{\sum_{i=1}^my_i(x_i-\overline{x})}{\sum_{i=1}^mx_i^2-\frac{1}{m}\left(\sum_{i=1}^mx_i^2\right)}
w=∑i=1mxi2−m1(∑i=1mxi2)∑i=1myi(xi−x)
b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum_{i=1}^m(y_i-wx_i) b=m1i=1∑m(yi−wxi)
其中 x ‾ = 1 m ∑ i = 1 m x i \overline{x}=\frac{1}{m}\sum_{i=1}^mx_i x=m1∑i=1mxi为 x i x_i xi的均值
多元线性回归(multivariate linear regression)与上述单变量线性回归类似,这里不再论述。