第三章 线性模型
3.1基本形式
d个属性描述示例
x
=
(
x
1
,
x
2
,
.
.
.
x
d
)
x=(x_1,x_2,...x_d)
x=(x1,x2,...xd)其中
x
i
x_i
xi是
x
x
x在第
i
i
i个属性取值。
线性模型(linear model)通过属性的线性组合预测函数
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
.
.
.
+
w
d
x
d
+
b
(3.1)
f(x)=w_1x_1+w_2x_2+...+w_dx_d+b \tag{3.1}
f(x)=w1x1+w2x2+...+wdxd+b(3.1)
转化成转化成向量形式
f
(
x
)
=
w
T
+
b
(3.2)
f(x)=w^T+b\tag{3.2}
f(x)=wT+b(3.2)
其中
w
T
w^T
wT中的
T
T
T表示“将向量取转置,一般线性代数中指的向量为列向量,取了转置后就是行向量.”PS:具体作用以及意义后续待完善…(主要是不记得了…)
其中
w
=
(
w
1
,
w
2
,
.
.
.
w
d
)
w=(w_1,w_2,...w_d)
w=(w1,w2,...wd)
最终
w
,
b
w,b
w,b学得后,模型确定。
线性模型有很好的解释性,更多非线性模型可在线性模型基础上引入层级结构或高维映射可得。
3.2线性回归
数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
m
,
y
m
)
}
D=\{(x_1,y_1),(x_2,y_2), ...,(x_m,y_m)\}
D={(x1,y1),(x2,y2),...,(xm,ym)},其中
x
i
=
(
x
i
1
;
x
i
2
;
.
.
.
;
x
i
d
)
,
y
i
∈
R
x_i=(x_{i1};x_{i2};...;x_{id}),y_i\in R
xi=(xi1;xi2;...;xid),yi∈R
转化为
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
D= \{(x_i,y_i)\}^m_{i=1}
D={(xi,yi)}i=1m,其中
x
i
∈
R
x_i\in R
xi∈R
有序关系:连续转化为连续值,如高矮
{
1
,
0
}
\{1,0\}
{1,0};高中低
{
1
,
0.5
,
0
}
\{1,0.5,0\}
{1,0.5,0}
不存在有序关系:
k
k
k个属性值,
k
k
k维向量,如“西瓜”“黄瓜”“南瓜”,转为向量
(
0
,
0
,
1
)
(
0
,
1
,
0
)
(
1
,
0
,
0
)
(0,0,1)(0,1,0)(1,0,0)
(0,0,1)(0,1,0)(1,0,0)
线性回归试图学得:
f
(
x
i
)
=
w
x
i
+
b
,
最
终
使
得
f
(
x
i
)
≈
y
i
(3.3)
f(x_i)=wx_i+b,最终使得f(x_i) \approx y_i \tag{3.3}
f(xi)=wxi+b,最终使得f(xi)≈yi(3.3)
最终问题变为如何求得
w
,
b
w,b
w,b,使得
f
(
x
i
)
≈
y
i
f(x_i) \approx y_i
f(xi)≈yi
(
w
∗
,
b
∗
)
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
(3.4)
(w^*,b^*)=\mathop{argmin}\limits_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i)^2 \tag{3.4} \\=\mathop{argmin}\limits_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2
(w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wxi−b)2(3.4)
通过最小二乘法进行线性回归、拟合,计算欧式距离,使得均方差最小化。
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
\mathop E(w,b)= \sum_{i=1}^{m}(y_i-wx_i-b)^2
E(w,b)=i=1∑m(yi−wxi−b)2
求解 w w w和 b b b使得 E ( w , b ) E(w,b) E(w,b)最小化的过程,称为线性回归模型的最小二乘参数估计(parameter estimation)。将 E ( w , b ) E(w,b) E(w,b)对 w w w和 b b b求导可得:
∂
E
(
w
,
b
)
∂
w
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
(3.5)
\frac{\partial{E(w,b)}}{\partial{w}}=2(w{\sum_{i=1}^{m}x^2_i}-{\sum_{i=1}^{m}(y_i-b)x_i}) \tag{3.5}
∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)(3.5)
∂
E
(
w
,
b
)
∂
b
=
2
(
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
)
(3.6)
\frac{\partial{E(w,b)}}{\partial{b}}=2(mb-{\sum_{i=1}^{m}(y_i-wx_i)}) \tag{3.6}
∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))(3.6)
令(3.5),(3.6)为零求最优解得:
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
‾
)
∑
i
=
1
m
x
2
−
1
m
(
∑
i
=
1
m
x
)
2
(3.7)
w=\frac{\sum_{i=1}^{m}y_i(x_i-\overline{x})}{\sum_{i=1}^{m}x^2-\frac{1}{m}(\sum_{i=1}^{m}x)^2} \tag{3.7}
w=∑i=1mx2−m1(∑i=1mx)2∑i=1myi(xi−x)(3.7)
其中
x
‾
=
1
m
∑
i
=
1
m
x
i
\overline{x}=\frac{1}{m}{\sum_{i=1}^{m}x_i}
x=m1∑i=1mxi
b
=
1
m
∑
i
=
1
m
(
y
i
−
w
x
i
)
(3.8)
b=\frac{1}{m}{\sum_{i=1}^{m}(y_i-wx_i)}\tag{3.8}
b=m1i=1∑m(yi−wxi)(3.8)