3.1 一元线性回归
线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b (3.1) f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b\tag{3.1} f(x)=w1x1+w2x2+...+wdxd+b(3.1) 一般用向量形式写成 f ( x ) = ω T x + b (3.2) f(x)=\omega^{T}x+b\tag{3.2} f(x)=ωTx+b(3.2) 其中 ω = ( w 1 , w 2 , . . . , w d ) \omega=(w_{1},w_{2},...,w_{d}) ω=(w1,w2,...,wd). ω \omega ω 和 b b b 训练之后确定模型。
线性模型的优点:
形式简单,易于建模;
具有很好的可解释性;
ω
\omega
ω 直观表达了各属性在预测中的重要性
3.2 多元线性回归
线性回归训练一个尽可能准确地预测输出的线性模型
确定
ω
,
b
\omega,b
ω,b的关键在于如何衡量
f
(
x
)
f(x)
f(x)与
y
y
y之间的差别,均方误差是最常用的性能度量(损失函数),即
(
ω
,
b
)
=
a
r
g
m
i
n
(
ω
,
x
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
a
r
g
m
i
n
(
ω
,
x
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
(3.4)
\begin{aligned} (\omega^{},b^{})&=argmin_{(\omega,x)}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}\ &=argmin_{(\omega,x)}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}\ \end{aligned}\tag{3.4}
(ω,b)=argmin(ω,x)i=1∑m(f(xi)−yi)2 =argmin(ω,x)i=1∑m(yi−wxi−b)2 (3.4) 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧式距离之和最小。
求解
ω
,
b
\omega,b
ω,b使
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}
E(w,b)=∑i=1m(yi−wxi−b)2最小化的过程,称为线性回归模型的最小二乘 “参数估计”。
E
(
w
,
b
)
E_{(w,b)}
E(w,b)对
ω
,
b
\omega,b
ω,b 分别求导得到:
∂
E
w
,
b
∂
w
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
(3.5)
\begin{aligned} \frac{\partial E_{w,b}}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i}) \end{aligned}\tag{3.5}\
∂w∂Ew,b=2(wi=1∑mxi2−i=1∑m(yi−b)xi) (3.5)
∂ E w , b ∂ b = 2 ( m b − ∑ i = 1 m ( y i − b ) ) (3.6) \begin{aligned} \frac{\partial E_{w,b}}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-b)) \end{aligned}\tag{3.6} ∂b∂Ew,b=2(mb−i=1∑m(yi−b))(3.6)
令(3.5)(3.6)为0可得
ω
,
b
\omega,b
ω,b最优的闭式解
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
ˉ
)
∑
i
=
1
m
x
i
2
−
1
m
(
∑
i
=
1
m
)
2
(3.7)
w = \frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m})^2}\tag{3.7}
w=∑i=1mxi2−m1(∑i=1m)2∑i=1myi(xi−xˉ)(3.7)
b
=
1
m
∑
i
=
1
m
(
y
i
−
w
x
i
)
(3.8)
b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})\tag{3.8}
b=m1i=1∑m(yi−wxi)(3.8)
其中,
x
ˉ
=
1
m
∑
i
=
1
m
x
i
\bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}
xˉ=m1∑i=1mxi为
x
x
x的均值。
延伸而来,
f
(
x
i
)
=
ω
T
x
i
+
b
,
使得
f
(
x
i
≃
y
i
)
f(x_{i})=\omega^{T}x_{i}+b,使得f(x_{i}\simeq y_{i})
f(xi)=ωTxi+b,使得f(xi≃yi) 这被称为多元线性回归。
类似的,可利用最小二乘法对 w , b w,b w,b进行估计。令 w ^ = ( w , b ) \hat{\boldsymbol{w}}=(w,b) w^=(w,b),数据集 D D D表示为一个 m × ( d + 1 ) m \times (d+1) m×(d+1)的矩阵 X X X:
X = ( x 11 x 11 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋯ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1 ) = ( x 1 T 1 x 2 T 1 ⋮ ⋮ x m T 1 ) \boldsymbol{X}=\left( \begin{matrix} x_{11} & x_{11} &\cdots & x_{1d} &1\\x_{21} & x_{22} &\cdots & x_{2d} &1 \\ \vdots & \vdots &\cdots & \vdots &\vdots\\ x_{m1} & x_{m2} &\cdots & x_{md} &1\ \end{matrix} \right)= \left( \begin{matrix} x_{1}^{T} & 1\\ x_{2}^{T} & 1 \\ \vdots & \vdots\\ x_{m}^{T} & 1\\\end{matrix} \right) X= x11x21⋮xm1x11x22⋮xm2⋯⋯⋯⋯x1dx2d⋮xmd11⋮1 = x1Tx2T⋮xmT11⋮1
再把标记写成向量形式
y
=
(
y
1
;
y
2
;
.
.
.
;
y
m
)
\boldsymbol{y}=(y_{1};y{2};...;y_{m})
y=(y1;y2;...;ym),则有
w
^
∗
=
a
r
g
m
i
n
w
^
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
(3.9)
\hat{\boldsymbol{w}}^{*}=argmin_{\hat{\boldsymbol{w}}}(\boldsymbol{y}-\boldsymbol{X\hat{w}})^{T}(\boldsymbol{y}-\boldsymbol{X\hat{w}})\tag{3.9}
w^∗=argminw^(y−Xw^)T(y−Xw^)(3.9) 令
E
w
^
=
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
E_{\hat{w}}=(\boldsymbol{y}-\boldsymbol{X\hat{w}})^{T}(\boldsymbol{y}-\boldsymbol{X\hat{w}})
Ew^=(y−Xw^)T(y−Xw^),对
w
^
\hat{\boldsymbol{w}}
w^求导可得:
∂
E
w
^
∂
w
^
=
2
X
T
(
X
w
^
−
y
)
(3.10)
\frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2\boldsymbol{X}^{T}(\boldsymbol{X} \hat{\boldsymbol{w}}-\boldsymbol{y})\tag{3.10}
∂w^∂Ew^=2XT(Xw^−y)(3.10)
令上式为0即为
w
^
\boldsymbol{\hat{w}}
w^最优解的闭式解。
做简单讨论:
当
X
T
X
\boldsymbol{X}^{T}\boldsymbol{X}
XTX为满秩矩阵或者正定矩阵时,令(3.10)为0可得:
w
^
∗
=
(
X
T
X
)
−
1
X
T
y
(3.11)
\boldsymbol{\hat{w}^*}=(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}\tag{3.11}
w^∗=(XTX)−1XTy(3.11)
其中,
(
X
T
X
)
−
1
(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}
(XTX)−1是
(
X
T
X
)
(\boldsymbol{X}^{T}\boldsymbol{X})
(XTX)的逆矩阵,令
x
^
i
=
(
x
i
,
1
)
\boldsymbol{\hat{x}{i}}=(\boldsymbol{x{i}},1)
x^i=(xi,1),则最终学得的多元线性回归模型为:
f
(
x
i
^
)
=
x
^
i
T
(
X
T
X
)
−
1
X
T
y
(3.12)
f(\hat{x_{i}})=\hat{x}_{i}^{T}(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}\tag{3.12}
f(xi^)=x^iT(XTX)−1XTy(3.12)
但现实任务中,
(
X
T
X
)
(\boldsymbol{X}^{T}\boldsymbol{X})
(XTX)往往不是满秩矩阵(例如变量数超过样例数),此时可以解出多个
w
^
\boldsymbol{\hat{w}}
w^,均满足均方误差最小化的要求,对于解的选择将由学习算法的归纳偏好决定,常见的做法是引入正则化项。
广义的线性模型:
y
=
g
−
1
(
w
T
x
+
b
)
(3.15)
y=g^{-1}(\mathbf{w}^{T}\mathbf{x}+b)\tag{3.15}
y=g−1(wTx+b)(3.15)
其中
g
(
⋅
)
g(·)
g(⋅)称为“联系函数”,为1时就是最简单的一元线性模型,
g
(
⋅
)
=
l
n
(
⋅
)
g(·)=ln(·)
g(⋅)=ln(⋅)时就是对数线性回归。
3.3 对数几率回归
对于分类任务,只需找到一个单调可微函数将分类任务的真是标记 y y y与线性回归模型的预测值联系起来。
考虑二分类任务, 其输出标记 y ∈ 0 , 1 y\in{0,1} y∈0,1,而线性回归模型产生的预测值 z = ω T x + b z = ω^{T}x +b z=ωTx+b 是实值,需将实值 z z z 转换为0/ 1 值. 最理想的是"单位阶跃函数" y = { 0 , z < 0 ; 0.5 , z = 0 ; 1 , z > 0 , (3.16) y= \begin{cases} 0, &z<0;\ 0.5, &z=0;\ 1,&z>0, \end{cases} \tag{3.16} y={0,z<0; 0.5,z=0; 1,z>0,(3.16)
但是单位阶跃函数不连续,不能直接用作 g − ( ⋅ ) g^{-}(·) g−(⋅),因此需要找到一个可以近似替代且单调可微函数–>对数几率函数: y = 1 1 + e − z (3.17) y=\frac{1}{1+e^{-z}}\tag{3.17} y=1+e−z1(3.17) 代入线性模型可得: y = 1 1 + e − ( w T x + b ) (3.18) y=\frac{1}{1+e^{-(\mathbf{w}^{T}\mathbf{x}+b)}}\tag{3.18} y=1+e−(wTx+b)1(3.18) 整理可得: l n y 1 − y = w T x + b (3.9) ln\frac{y}{1-y}=\mathbf{w}^{T}\mathbf{x}+b\tag{3.9} ln1−yy=wTx+b(3.9) 若将 y y y视为样本 x \mathbf{x} x作为正例的可能性,则 1 − y 1-y 1−y则是反例可能性,两者的比值 y 1 − y (3.20) \frac{y}{1-y}\tag{3.20} 1−yy(3.20) 称为“几率”,取对数则得到“对数几率” l n y 1 − y (3.21) ln\frac{y}{1-y}\tag{3.21} ln1−yy(3.21) -->实际上式(3.18)是在用线性回归模型预测结果去逼近真实标记的对数几率。
虽然名字是回归,但其实这是一种分类学习方法,具有较多优点:
无需事先假设数据分布,直接对分类可能性建模;
得到近似概率预测,对需要利用概率辅助决策很有用;
对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解.
将
y
y
y视为类后验概率
p
(
y
=
1
∣
x
)
p(y=1|\mathbf{x})
p(y=1∣x),则
l
n
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
(3.22)
ln\frac{p(y=1|\mathbf{x})}{p(y=0|\mathbf{x})}=\mathbf{w}^{T}\mathbf{x}+b\tag{3.22}
lnp(y=0∣x)p(y=1∣x)=wTx+b(3.22) 显然有
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
(3.23)
p(y=1|\mathbf{x})=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}\tag{3.23}
p(y=1∣x)=1+ewTx+bewTx+b(3.23)
p ( y = 0 ∣ x ) = 1 1 + e w T x + b (3.24) p(y=0|\mathbf{x})=\frac{1}{1+e^{w^{T}x+b}}\tag{3.24} p(y=0∣x)=1+ewTx+b1(3.24)
-->可以通过极大似然估计来估计 ω , b \mathbf{\omega},b ω,b。 ℓ ( ω , b ) = ∑ i = 1 m l n p ( y i ∣ x i ; ω , b ) (3.25) \ell(\omega,b)=\sum_{i=1}^{m}lnp(y_{i}|\mathbf{x}{i};\omega,b)\tag{3.25} ℓ(ω,b)=i=1∑mlnp(yi∣xi;ω,b)(3.25) 令 β = ( ω ; b ) \beta=(\omega;b) β=(ω;b), x ^ = ( x ; 1 ) \hat{x}=(x;1) x^=(x;1),则 ω T x + b \omega^{T}x+b ωTx+b可简化为 β T x ^ \beta^{T}\hat{x} βTx^。再令 p 1 ( x ^ ; β ) = p ( y = 1 ∣ x ; β ^ ) , p 0 ( x ^ ; β ) = p ( y = 0 ∣ x ; β ^ ) = 1 − p 1 ( x ^ ; β ) p{1}(\hat{x};\beta)=p(y=1|\hat{x;\beta}),p_{0}(\hat{x};\beta)=p(y=0|\hat{x;\beta})=1-p_{1}(\hat{x};\beta) p1(x^;β)=p(y=1∣x;β^),p0(x^;β)=p(y=0∣x;β^)=1−p1(x^;β),则(3.25)中的似然项可写为 p ( y i ∣ x i ; ω , x ) = y i p 1 ( x i ^ ; β ) + ( 1 − y i ) p 0 ( x i ^ ; β ) (3.26) p(y_{i}|x_{i};\omega,x)=y_{i}p_{1}(\hat{x_{i}};\beta)+(1-y_{i})p_{0}(\hat{x_{i}};\beta)\tag{3.26} p(yi∣xi;ω,x)=yip1(xi^;β)+(1−yi)p0(xi^;β)(3.26)
将(3.26)代入(3.25),并根据(3.23)和(3.24)可知,最大化(3.25)等价于最小化 ℓ ( β ) = ∑ i = 1 m ( − y i β T x i ^ + l n ( 1 + e β T x ^ ) ) (3.27) \ell(\beta)=\sum_{i=1}^{m}(-y_{i}\beta^{T}\hat{x_{i}}+ln(1+e^{\beta^{T}\hat{x}}))\tag{3.27} ℓ(β)=i=1∑m(−yiβTxi^+ln(1+eβTx^))(3.27) 式(3.27)是关于 β β β 的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解,于是就得到 β ∗ = a r g m i n β ℓ ( β ) (3.28) \beta^{*}=argmin_{\beta}\ell(\beta)\tag{3.28} β∗=argminβℓ(β)(3.28)
3.4 线性判别分析
思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点位置来确定新的样本的类别。
给定数据集 D = ( x i , y i ) i = 1 m , y i ∈ 0 , 1 D = { (x_{i},y_{i})}{i=1}^{m},y{i} \in{0,1} D=(xi,yi)i=1m,yi∈0,1, 令 x i , μ , ∑ i x_{i},\mu,\sum_{i} xi,μ,∑i分别表示第 i ∈ 0 , 1 i\in{0,1} i∈0,1 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线 w w w上,则两类样本的中心在直线上的投影分别为 w T μ 0 w^{T}\mu_{0} wTμ0和 w T μ 1 w^{T}\mu_{1} wTμ1; 若将所有样本点都投影到直线上,则两类样本的协方差分别为 w T ∑ 0 w w^{T}\sum_{0}w wT∑0w 和 w T ∑ 1 w w^{T}\sum_{1}w wT∑1w。由于直线是一维空间,因此投影和协方差均为实数。
同类样例投影点尽可能接近:协方差尽可能小;
异类样例投影点尽可能远离:类中心之间的距离尽可能大;即 ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 ||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2} ∣∣wTμ0−wTμ1∣∣22尽可能大。
两者结合,则可得到欲最大化的目标 J = ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 w T ∑ 0 w + w T ∑ 1 w = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( ∑ 0 + ∑ 1 ) w (3.32) \begin{aligned} J&=\frac{||w^{T}\mu_{0}-w^{T}\mu_{1}||{2}^{2}}{w^{T}\sum{0}w+w^{T}\sum_{1}w}\ &=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\sum_{0}+\sum_{1})w} \end{aligned} \tag{3.32} J=wT∑0w+wT∑1w∣∣wTμ0−wTμ1∣∣22 =wT(∑0+∑1)wwT(μ0−μ1)(μ0−μ1)Tw(3.32)
定义"类内散度矩阵": S w = ∑ 0 + ∑ 1 = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T + ∑ x ∈ X 1 ( x − μ 1 ) ( x − μ 1 ) T (3.33) \begin{aligned} S_{w}&=\sum\ {0}+\sum\ {1}\ &=\sum{x\in X{0}}(x-\mu_{0})(x-\mu_{0})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}\ \end{aligned} \tag{3.33} Sw=∑ 0+∑ 1 =∑x∈X0(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T (3.33)
以及“类间散度矩阵”: S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T (3.33) \begin{aligned} S_{b}&=(\mu _{0}-\mu _{1})(\mu {0}-\mu {1})^{T}\ \end{aligned} \tag{3.33} Sb=(μ0−μ1)(μ0−μ1)T (3.33)
则(3.32)可重写为 J = w T S b w w T S w w (3.35) J=\frac{w^{T}S{b}w}{w^{T}S{w}w}\tag{3.35} J=wTSwwwTSbw(3.35) 这就是LDA的最大化目标。
由于(3.35)分子分母都是关于 w w w的二次项,所以解与 w w w的长度无关,只与其方向有关。令 w T S w w = 1 w^{T}S_{w}w=1 wTSww=1,则(3.35)等价于 m i n w − w T S b w s . t . w T S w w (3.36) \begin{aligned} &min_{w}\ &-w^{T}S_{b}w\ &s.t.\ &w^{T}S_{w}w\ \end{aligned} \tag{3.36} minw −wTSbw s.t. wTSww (3.36) 由拉格朗日乘子法,上式等价于 S b w = λ S w w (3.37) S_{b}w=\lambda S_{w}w\tag{3.37} Sbw=λSww(3.37) 其中 λ \lambda λ是拉格朗日乘子。注意到 S b w S_{b}w Sbw的方向恒为 μ 0 − μ 1 \mu_{0}-\mu_{1} μ0−μ1,不妨令 S b w = λ ( μ 0 − μ 1 ) (3.38) S_{b}w=\lambda(\mu_{0}-\mu_{1})\tag{3.38} Sbw=λ(μ0−μ1)(3.38) 代入(3.37)可得 w = S w − 1 ( μ 0 − μ 1 ) (3.39) w=S_{w}^{-1}(\mu_{0}-\mu_{1})\tag{3.39} w=Sw−1(μ0−μ1)(3.39) LDA可从贝叶斯决策理论的角度来阐释,并可证明当类数据同先验、满足高斯分布且协方差相等时,LDA可达到最有分类。
m a x W t r ( W T S b W ) t r W T S w W (3.44) max_{W}\frac{tr(W^TS_{b}W)}{trW^{T}S_{w}W}\tag{3.44} maxWtrWTSwWtr(WTSbW)(3.44) 其中, W ∈ R d × ( N − 1 ) , t r ( ⋅ ) W\in \mathbb{R}^{d\times(N-1)},tr(·) W∈Rd×(N−1),tr(⋅)表示矩阵的迹。(3.44)可以通过如下广义特征值问题求解: S b W = λ S w W (3.45) S_{b}W=\lambda S_{w}W\tag{3.45} SbW=λSwW(3.45) W的闭式解是 S W − 1 S b S_{W}^{-1}S_{b} SW−1Sb的N-1个最大广义特征值所对应的特征向量组成的举证。
若将W 视为一个投影矩阵,则多分类LDA 将样本投影到N-1 维空间,N-1 通常远小子数据原有的属性数.于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术。