【机器学习笔记】第三章:线性模型

3.1 一元线性回归

线性模型试图学得一个通过属性的线性组合来进行预测的函数,即 f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b (3.1) f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b\tag{3.1} f(x)=w1x1+w2x2+...+wdxd+b(3.1) 一般用向量形式写成 f ( x ) = ω T x + b (3.2) f(x)=\omega^{T}x+b\tag{3.2} f(x)=ωTx+b(3.2) 其中 ω = ( w 1 , w 2 , . . . , w d ) \omega=(w_{1},w_{2},...,w_{d}) ω=(w1,w2,...,wd). ω \omega ω b b b 训练之后确定模型。

线性模型的优点:
形式简单,易于建模;
具有很好的可解释性;
ω \omega ω 直观表达了各属性在预测中的重要性

3.2 多元线性回归

线性回归训练一个尽可能准确地预测输出的线性模型
​ 确定 ω , b \omega,b ω,b的关键在于如何衡量 f ( x ) f(x) f(x) y y y之间的差别,均方误差是最常用的性能度量(损失函数),即 ( ω , b ) = a r g m i n ( ω , x ) ∑ i = 1 m ( f ( x i ) − y i ) 2   = a r g m i n ( ω , x ) ∑ i = 1 m ( y i − w x i − b ) 2   (3.4) \begin{aligned} (\omega^{},b^{})&=argmin_{(\omega,x)}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}\ &=argmin_{(\omega,x)}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}\ \end{aligned}\tag{3.4} (ω,b)=argmin(ω,x)i=1m(f(xi)yi)2 =argmin(ω,x)i=1m(yiwxib)2 (3.4)​ 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧式距离之和最小。
​ 求解 ω , b \omega,b ω,b使 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2} E(w,b)=i=1m(yiwxib)2最小化的过程,称为线性回归模型的最小二乘 “参数估计”
E ( w , b ) E_{(w,b)} E(w,b) ω , b \omega,b ω,b 分别求导得到:
∂ E w , b ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i )   (3.5) \begin{aligned} \frac{\partial E_{w,b}}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i}) \end{aligned}\tag{3.5}\ wEw,b=2(wi=1mxi2i=1m(yib)xi) (3.5)

∂ E w , b ∂ b = 2 ( m b − ∑ i = 1 m ( y i − b ) ) (3.6) \begin{aligned} \frac{\partial E_{w,b}}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-b)) \end{aligned}\tag{3.6} bEw,b=2(mbi=1m(yib))(3.6)

​ 令(3.5)(3.6)为0可得 ω , b \omega,b ω,b最优的闭式解
w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m ) 2 (3.7) w = \frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m})^2}\tag{3.7} w=i=1mxi2m1(i=1m)2i=1myi(xixˉ)(3.7)

b = 1 m ∑ i = 1 m ( y i − w x i ) (3.8) b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})\tag{3.8} b=m1i=1m(yiwxi)(3.8)
其中, x ˉ = 1 m ∑ i = 1 m x i \bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i} xˉ=m1i=1mxi x x x的均值。
延伸而来, f ( x i ) = ω T x i + b , 使得 f ( x i ≃ y i ) f(x_{i})=\omega^{T}x_{i}+b,使得f(x_{i}\simeq y_{i}) f(xi)=ωTxi+b,使得f(xiyi) 这被称为多元线性回归。

​类似的,可利用最小二乘法对 w , b w,b w,b进行估计。令 w ^ = ( w , b ) \hat{\boldsymbol{w}}=(w,b) w^=(w,b),数据集 D D D表示为一个 m × ( d + 1 ) m \times (d+1) m×(d+1)的矩阵 X X X

X = ( x 11 x 11 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d 1 ⋮ ⋮ ⋯ ⋮ ⋮ x m 1 x m 2 ⋯ x m d 1   ) = ( x 1 T 1 x 2 T 1 ⋮ ⋮ x m T 1 ) \boldsymbol{X}=\left( \begin{matrix} x_{11} & x_{11} &\cdots & x_{1d} &1\\x_{21} & x_{22} &\cdots & x_{2d} &1 \\ \vdots & \vdots &\cdots & \vdots &\vdots\\ x_{m1} & x_{m2} &\cdots & x_{md} &1\ \end{matrix} \right)= \left( \begin{matrix} x_{1}^{T} & 1\\ x_{2}^{T} & 1 \\ \vdots & \vdots\\ x_{m}^{T} & 1\\\end{matrix} \right) X= x11x21xm1x11x22xm2x1dx2dxmd111  = x1Tx2TxmT111

再把标记写成向量形式 y = ( y 1 ; y 2 ; . . . ; y m ) \boldsymbol{y}=(y_{1};y{2};...;y_{m}) y=(y1;y2;...;ym),则有 w ^ ∗ = a r g m i n w ^ ( y − X w ^ ) T ( y − X w ^ ) (3.9) \hat{\boldsymbol{w}}^{*}=argmin_{\hat{\boldsymbol{w}}}(\boldsymbol{y}-\boldsymbol{X\hat{w}})^{T}(\boldsymbol{y}-\boldsymbol{X\hat{w}})\tag{3.9} w^=argminw^(yXw^)T(yXw^)(3.9) E w ^ = ( y − X w ^ ) T ( y − X w ^ ) E_{\hat{w}}=(\boldsymbol{y}-\boldsymbol{X\hat{w}})^{T}(\boldsymbol{y}-\boldsymbol{X\hat{w}}) Ew^=(yXw^)T(yXw^),对 w ^ \hat{\boldsymbol{w}} w^求导可得: ∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) (3.10) \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2\boldsymbol{X}^{T}(\boldsymbol{X} \hat{\boldsymbol{w}}-\boldsymbol{y})\tag{3.10} w^Ew^=2XT(Xw^y)(3.10)
令上式为0即为 w ^ \boldsymbol{\hat{w}} w^最优解的闭式解。

做简单讨论:
​ 当 X T X \boldsymbol{X}^{T}\boldsymbol{X} XTX为满秩矩阵或者正定矩阵时,令(3.10)为0可得:

w ^ ∗ = ( X T X ) − 1 X T y (3.11) \boldsymbol{\hat{w}^*}=(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}\tag{3.11} w^=(XTX)1XTy(3.11)
其中, ( X T X ) − 1 (\boldsymbol{X}^{T}\boldsymbol{X})^{-1} (XTX)1 ( X T X ) (\boldsymbol{X}^{T}\boldsymbol{X}) (XTX的逆矩阵,令 x ^ i = ( x i , 1 ) \boldsymbol{\hat{x}{i}}=(\boldsymbol{x{i}},1) x^i=(xi,1),则最终学得的多元线性回归模型为: f ( x i ^ ) = x ^ i T ( X T X ) − 1 X T y (3.12) f(\hat{x_{i}})=\hat{x}_{i}^{T}(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}\tag{3.12} f(xi^)=x^iT(XTX)1XTy(3.12)
但现实任务中, ( X T X ) (\boldsymbol{X}^{T}\boldsymbol{X}) (XTX)往往不是满秩矩阵(例如变量数超过样例数),此时可以解出多个 w ^ \boldsymbol{\hat{w}} w^,均满足均方误差最小化的要求,对于解的选择将由学习算法的归纳偏好决定,常见的做法是引入正则化项。
​广义的线性模型: y = g − 1 ( w T x + b ) (3.15) y=g^{-1}(\mathbf{w}^{T}\mathbf{x}+b)\tag{3.15} y=g1(wTx+b)(3.15)
其中 g ( ⋅ ) g(·) g()称为“联系函数”,为1时就是最简单的一元线性模型, g ( ⋅ ) = l n ( ⋅ ) g(·)=ln(·) g()=ln()时就是对数线性回归。

3.3 对数几率回归

对于分类任务,只需找到一个单调可微函数将分类任务的真是标记 y y y与线性回归模型的预测值联系起来。

​ 考虑二分类任务, 其输出标记 y ∈ 0 , 1 y\in{0,1} y0,1,而线性回归模型产生的预测值 z = ω T x + b z = ω^{T}x +b z=ωTx+b 是实值,需将实值 z z z 转换为0/ 1 值. 最理想的是"单位阶跃函数" y = { 0 , z < 0 ;   0.5 , z = 0 ;   1 , z > 0 , (3.16) y= \begin{cases} 0, &z<0;\ 0.5, &z=0;\ 1,&z>0, \end{cases} \tag{3.16} y={0,z<0; 0.5,z=0; 1,z>0,(3.16)

​ 但是单位阶跃函数不连续,不能直接用作 g − ( ⋅ ) g^{-}(·) g(),因此需要找到一个可以近似替代且单调可微函数–>对数几率函数: y = 1 1 + e − z (3.17) y=\frac{1}{1+e^{-z}}\tag{3.17} y=1+ez1(3.17)​ 代入线性模型可得: y = 1 1 + e − ( w T x + b ) (3.18) y=\frac{1}{1+e^{-(\mathbf{w}^{T}\mathbf{x}+b)}}\tag{3.18} y=1+e(wTx+b)1(3.18) 整理可得: l n y 1 − y = w T x + b (3.9) ln\frac{y}{1-y}=\mathbf{w}^{T}\mathbf{x}+b\tag{3.9} ln1yy=wTx+b(3.9)​ 若将 y y y视为样本 x \mathbf{x} x作为正例的可能性,则 1 − y 1-y 1y则是反例可能性,两者的比值 y 1 − y (3.20) \frac{y}{1-y}\tag{3.20} 1yy(3.20) 称为“几率”,取对数则得到“对数几率” l n y 1 − y (3.21) ln\frac{y}{1-y}\tag{3.21} ln1yy(3.21)​ -->实际上式(3.18)是在用线性回归模型预测结果去逼近真实标记的对数几率。

​ 虽然名字是回归,但其实这是一种分类学习方法,具有较多优点:

无需事先假设数据分布,直接对分类可能性建模;
得到近似概率预测,对需要利用概率辅助决策很有用;
对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解.
​ 将 y y y视为类后验概率 p ( y = 1 ∣ x ) p(y=1|\mathbf{x}) p(y=1∣x),则 l n p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = w T x + b (3.22) ln\frac{p(y=1|\mathbf{x})}{p(y=0|\mathbf{x})}=\mathbf{w}^{T}\mathbf{x}+b\tag{3.22} lnp(y=0∣x)p(y=1∣x)=wTx+b(3.22)​ 显然有 p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b (3.23) p(y=1|\mathbf{x})=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}\tag{3.23} p(y=1∣x)=1+ewTx+bewTx+b(3.23)

p ( y = 0 ∣ x ) = 1 1 + e w T x + b (3.24) p(y=0|\mathbf{x})=\frac{1}{1+e^{w^{T}x+b}}\tag{3.24} p(y=0∣x)=1+ewTx+b1(3.24)

​ -->可以通过极大似然估计来估计 ω , b \mathbf{\omega},b ω,b ℓ ( ω , b ) = ∑ i = 1 m l n p ( y i ∣ x i ; ω , b ) (3.25) \ell(\omega,b)=\sum_{i=1}^{m}lnp(y_{i}|\mathbf{x}{i};\omega,b)\tag{3.25} (ω,b)=i=1mlnp(yixi;ω,b)(3.25)​ 令 β = ( ω ; b ) \beta=(\omega;b) β=(ω;b) x ^ = ( x ; 1 ) \hat{x}=(x;1) x^=(x;1),则 ω T x + b \omega^{T}x+b ωTx+b可简化为 β T x ^ \beta^{T}\hat{x} βTx^。再令 p 1 ( x ^ ; β ) = p ( y = 1 ∣ x ; β ^ ) , p 0 ( x ^ ; β ) = p ( y = 0 ∣ x ; β ^ ) = 1 − p 1 ( x ^ ; β ) p{1}(\hat{x};\beta)=p(y=1|\hat{x;\beta}),p_{0}(\hat{x};\beta)=p(y=0|\hat{x;\beta})=1-p_{1}(\hat{x};\beta) p1(x^;β)=p(y=1∣x;β^),p0(x^;β)=p(y=0∣x;β^)=1p1(x^;β),则(3.25)中的似然项可写为 p ( y i ∣ x i ; ω , x ) = y i p 1 ( x i ^ ; β ) + ( 1 − y i ) p 0 ( x i ^ ; β ) (3.26) p(y_{i}|x_{i};\omega,x)=y_{i}p_{1}(\hat{x_{i}};\beta)+(1-y_{i})p_{0}(\hat{x_{i}};\beta)\tag{3.26} p(yixi;ω,x)=yip1(xi^;β)+(1yi)p0(xi^;β)(3.26)

​ 将(3.26)代入(3.25),并根据(3.23)和(3.24)可知,最大化(3.25)等价于最小化 ℓ ( β ) = ∑ i = 1 m ( − y i β T x i ^ + l n ( 1 + e β T x ^ ) ) (3.27) \ell(\beta)=\sum_{i=1}^{m}(-y_{i}\beta^{T}\hat{x_{i}}+ln(1+e^{\beta^{T}\hat{x}}))\tag{3.27} (β)=i=1m(yiβTxi^+ln(1+eβTx^))(3.27)​ 式(3.27)是关于 β β β 的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解,于是就得到 β ∗ = a r g m i n β ℓ ( β ) (3.28) \beta^{*}=argmin_{\beta}\ell(\beta)\tag{3.28} β=argminβ(β)(3.28)

3.4 线性判别分析

思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点位置来确定新的样本的类别。

​ 给定数据集 D = ( x i , y i ) i = 1 m , y i ∈ 0 , 1 D = { (x_{i},y_{i})}{i=1}^{m},y{i} \in{0,1} D=(xi,yi)i=1m,yi0,1, 令 x i , μ , ∑ i x_{i},\mu,\sum_{i} xi,μ,i分别表示第 i ∈ 0 , 1 i\in{0,1} i0,1 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线 w w w上,则两类样本的中心在直线上的投影分别为 w T μ 0 w^{T}\mu_{0} wTμ0 w T μ 1 w^{T}\mu_{1} wTμ1; 若将所有样本点都投影到直线上,则两类样本的协方差分别为 w T ∑ 0 w w^{T}\sum_{0}w wT0w w T ∑ 1 w w^{T}\sum_{1}w wT1w由于直线是一维空间,因此投影和协方差均为实数

同类样例投影点尽可能接近:协方差尽可能小;

异类样例投影点尽可能远离:类中心之间的距离尽可能大;即 ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 ||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2} ∣∣wTμ0wTμ122尽可能大。

​ 两者结合,则可得到欲最大化的目标 J = ∣ ∣ w T μ 0 − w T μ 1 ∣ ∣ 2 2 w T ∑ 0 w + w T ∑ 1 w   = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( ∑ 0 + ∑ 1 ) w (3.32) \begin{aligned} J&=\frac{||w^{T}\mu_{0}-w^{T}\mu_{1}||{2}^{2}}{w^{T}\sum{0}w+w^{T}\sum_{1}w}\ &=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\sum_{0}+\sum_{1})w} \end{aligned} \tag{3.32} J=wT0w+wT1w∣∣wTμ0wTμ1∣∣22 =wT(0+1)wwT(μ0μ1)(μ0μ1)Tw(3.32)

定义"类内散度矩阵": S w = ∑   0 + ∑   1   = ∑ x ∈ X 0 ( x − μ 0 ) ( x − μ 0 ) T + ∑ x ∈ X 1 ( x − μ 1 ) ( x − μ 1 ) T   (3.33) \begin{aligned} S_{w}&=\sum\ {0}+\sum\ {1}\ &=\sum{x\in X{0}}(x-\mu_{0})(x-\mu_{0})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}\ \end{aligned} \tag{3.33} Sw= 0+ 1 =xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T (3.33)

以及“类间散度矩阵”: S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T   (3.33) \begin{aligned} S_{b}&=(\mu _{0}-\mu _{1})(\mu {0}-\mu {1})^{T}\ \end{aligned} \tag{3.33} Sb=(μ0μ1)(μ0μ1)T (3.33)

则(3.32)可重写为 J = w T S b w w T S w w (3.35) J=\frac{w^{T}S{b}w}{w^{T}S{w}w}\tag{3.35} J=wTSwwwTSbw(3.35) 这就是LDA的最大化目标。

​由于(3.35)分子分母都是关于 w w w的二次项,所以解与 w w w的长度无关,只与其方向有关。令 w T S w w = 1 w^{T}S_{w}w=1 wTSww=1,则(3.35)等价于 m i n w   − w T S b w   s . t .   w T S w w   (3.36) \begin{aligned} &min_{w}\ &-w^{T}S_{b}w\ &s.t.\ &w^{T}S_{w}w\ \end{aligned} \tag{3.36} minw wTSbw s.t. wTSww (3.36) 由拉格朗日乘子法,上式等价于 S b w = λ S w w (3.37) S_{b}w=\lambda S_{w}w\tag{3.37} Sbw=λSww(3.37) 其中 λ \lambda λ是拉格朗日乘子。注意到 S b w S_{b}w Sbw的方向恒为 μ 0 − μ 1 \mu_{0}-\mu_{1} μ0μ1,不妨令 S b w = λ ( μ 0 − μ 1 ) (3.38) S_{b}w=\lambda(\mu_{0}-\mu_{1})\tag{3.38} Sbw=λ(μ0μ1)(3.38) 代入(3.37)可得 w = S w − 1 ( μ 0 − μ 1 ) (3.39) w=S_{w}^{-1}(\mu_{0}-\mu_{1})\tag{3.39} w=Sw1(μ0μ1)(3.39)​ LDA可从贝叶斯决策理论的角度来阐释,并可证明当类数据同先验、满足高斯分布且协方差相等时,LDA可达到最有分类。

m a x W t r ( W T S b W ) t r W T S w W (3.44) max_{W}\frac{tr(W^TS_{b}W)}{trW^{T}S_{w}W}\tag{3.44} maxWtrWTSwWtr(WTSbW)(3.44)​ 其中, W ∈ R d × ( N − 1 ) , t r ( ⋅ ) W\in \mathbb{R}^{d\times(N-1)},tr(·) WRd×(N1),tr()表示矩阵的迹。(3.44)可以通过如下广义特征值问题求解: S b W = λ S w W (3.45) S_{b}W=\lambda S_{w}W\tag{3.45} SbW=λSwW(3.45)​ W的闭式解是 S W − 1 S b S_{W}^{-1}S_{b} SW1Sb的N-1个最大广义特征值所对应的特征向量组成的举证。

​ 若将W 视为一个投影矩阵,则多分类LDA 将样本投影到N-1 维空间,N-1 通常远小子数据原有的属性数.于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的监督降维技术

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪里摸鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值