机器学习线性模型(2)

最新推荐文章于 2024-04-07 20:10:55 发布

lucky_yang_

最新推荐文章于 2024-04-07 20:10:55 发布

阅读量312

点赞数

本文链接：https://blog.csdn.net/lucky_yang_/article/details/80472705

版权

我们已经知道如何使用线性模型进行回归学习，如果要做分类任务呢？

广义线性模型： $y=g^{-1}(\mathbf{w}^T\mathbf{x}+b)$

现在只需找到一个单调可微函数 $g^{-1}$ 将分类任务的真实标记 $y$ 与线性回归模型的预测值 $\mathbf{w}^T\mathbf{x}+b$ 联系起来.

考虑二分类任务， $y\in\{0,1\}$ , $z=\mathbf{w}^T\mathbf{x}+b$ 是实值，将实值z转化微0/1值，最理想的是单位跃进函数

y = ⎧ ⎩ ⎨ 0, 0.5, 1, z < 0 z = 0 z > 0

$y = \begin{cases} 0, & \text{$z<0$} \\ 0.5, & \text{$z=0$}\\ 1, & \text{$z>0$} \end{cases}$
但是单位跃进函数不连续，不是我们要找的

g−1 g − 1 $g^{-1}$ ，所以要找一个在一定程度上近似单位跃进函数的单调可微的函数，就是 对数几率函数(logistic function)

y = 1 1 + e - z

$y={1\over 1+e^{-z}}$

这里写图片描述

从图中可以看到，对数几率函数是一种sigmoid函数(形似S的函数)

将对数几率函数作为 $g^{-1}$ ，得到

y = 1 1 + e - ( w T x + b ) — — — — — — — — (1)

$y={1\over 1+e^{-(\mathbf{w}^T\mathbf{x}+b)}}————————(1)$
做变换后：

l n y 1 - y = w T x + b — — — — — — — — (2)

$ln{y \over 1-y}=\mathbf{w}^T\mathbf{x}+b————————(2)$

若将y视作x作为正例的可能性，则1-y是x作为反例的可能性， ${y \over 1-y}$ 称作几率， $ln{y \over 1-y}$ 称为对数几率

可以看出式(2)是在用线性回归模型的预测结果去逼近真实标记y的对数几率，对应的模型叫对数几率回归模型(logistic regression)，注意：它实际是一种分类学习方法。

如何来确定(1)式中的 $\mathbf{w}$ 和b？将y视为类后验概率估计 $p(y=1|x)$ ，得到下式：

l n p ( y = 1 | x ) p ( y = 0 | x ) = w T x + b

$ln{p(y=1|x) \over p(y=0|x) }=\mathbf{w}^T\mathbf{x}+b$

\Rightarrow p ( y = 1 | x ) 1 - p ( y = 1 | x ) = e w T x + b

$\Rightarrow {p(y=1|x) \over 1-p(y=1|x) }=e^{\mathbf{w}^T\mathbf{x}+b}$

\Rightarrow p (y = 1 | x) = e w T x + b e w T x + b + 1

$\Rightarrow {p(y=1|x) }={e^{\mathbf{w}^T\mathbf{x}+b} \over e^{\mathbf{w}^T\mathbf{x}+b}+1}$
显然，

\Rightarrow p (y = 0 | x) = 1 e w T x + b + 1

$\Rightarrow {p(y=0|x) }={1\over e^{\mathbf{w}^T\mathbf{x}+b}+1}$
于是，我们可以通过极大似然法来估计

w w $\mathbf{w}$ 和b，给定数据集

(xi,yi),i=1,2…,m ( x i , y i ) , i = 1 , 2 … , m ${(x_i,y_i)},i =1,2…,m$ ,对数几率回归模型 最大化对数似然，即 每个样本属于其真实标记的概率越大越好：

ℓ (w, b) = \sum i = 1 m l n p (y i | x i; w, b)

$\mathcal{\ell}(\mathbf{w},b)=\sum_{i=1}^m lnp(y_i|x_i;\mathbf{w},b)$
令：

β=(w;b) β = ( w ; b ) $\beta=(\mathbf{w};b)$ ，

x^=(x;1) x ^ = ( x ; 1 ) $\hat{x}=(x;1)$ ，故

wTx+b=βTx^ w T x + b = β T x ^ $\mathbf{w}^T\mathbf{x}+b=\beta^T\hat{x}$
令:

p1(x^;β)=p(y=1|x^;β) p 1 ( x ^ ; β ) = p ( y = 1 | x ^ ; β ) $p_1(\hat{x};\beta)={p(y=1|\hat{x};\beta)}$ ,

p0(x^;β)=p(y=0|x^;β) p 0 ( x ^ ; β ) = p ( y = 0 | x ^ ; β ) $p_0(\hat{x};\beta)={p(y=0|\hat{x};\beta)}$

似然项可以重写为：

p (y i | x i; w, b) = y i p 1 (x^; β) + (1 - y i) p 0 (x^; β)

$p(y_i|\mathbf{x_i};\mathbf{w},b)=y_ip_1(\hat{x};\beta)+(1-y_i)p_0(\hat{x};\beta)$

= y i e β T x ^ e β T x ^ + 1 + (1 - y i) 1 e β T x ^ + 1

$=y_i{e^{\beta^T\hat{x}} \over e^{\beta^T\hat{x}}+1}+(1-y_i){1\over e^{\beta^T\hat{x}}+1}$

= 1 + y i e β T x ^ - y i e β T x ^ + 1

$={1+y_ie^{\beta^T\hat{x}}-y_i \over e^{\beta^T\hat{x}}+1}$
对上式取对数

l n (1 + y i e β T x^- y i) - l n (e β T x^+ 1)

$ln(1+y_ie^{\beta^T\hat{x}}-y_i )-ln( e^{\beta^T\hat{x}}+1)$
因为

yi∈{0,1} y i ∈ { 0 , 1 } $y_i \in \{0,1\}$ ，所以上式的第一项要么为0，要么为

βTx^ β T x ^ $\beta^T\hat{x}$ ,故上边的最大化式等价于下面这个 最小化式

ℓ (β) = \sum i = 1 m (- y i β T x^+ l n (e β T x^+ 1))

$\mathcal{\ell}(\beta)=\sum_{i=1}^m (-y_i\beta^T\hat{x}+ln( e^{\beta^T\hat{x}}+1))$

利用经典的数值优化算法如梯度下降、牛顿法都可以得到上式最优解。

β * = arg min β l (β)

$\beta^*=\arg\min_{\beta}\mathcal{l}(\beta)$

线性判别分析(LDA)也称为Fisher判别分析

思想：给定训练样例集，设法将样例投影到一条直线上，使类内方差最小，类间方差最大，使分类效果最好。

这里写图片描述

给定数据集 ${(x_i,y_i)},i =1,2…,m$ , $y_i \in \{0,1\}$ ，令 $X_i,\mu_i,\Sigma_i$ 分别表示第 $i \in \{0,1\}$ 类示例的集合、均值向量、协方差矩阵。

则两类样本的中心在直线上的投影分别为： $w^T\mu_0$ 和 $w^T\mu_1$

两类样本的协方差分别为： $w^T\Sigma_0w$ 和 $w^T\Sigma_1w$

使同类样例投影点尽可能近，可以让同类样例投影点的协方差尽可能小，即 $w^T\Sigma_0w+w^T\Sigma_1w$ 尽可能小。

使异类样例的投影点尽可能远，可以让类中心之间的距离尽可能大，即 $||w^T\mu_0-w^T\mu_1||^2$ 尽可能大。

所以我们的目标是最大化下式：

J = | | w T μ 0 - w T μ 1 | | 2 w T Σ 0 w + w T Σ 1 w

$J={{||w^T\mu_0-w^T\mu_1||^2} \over {w^T\Sigma_0w+w^T\Sigma_1w}}$

= w T ( μ 0 - μ 1 ) ( μ 0 - μ 1 ) T w w T ( Σ 0 + Σ 1 ) w

$={{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw} \over {w^T(\Sigma_0+\Sigma_1)w}}$

定义类内散度矩阵 $S_w$ :

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x - μ 0) (x - μ 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T

$S_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0} (x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1} (x-\mu_1)(x-\mu_1)^T$
定义类间散度矩阵

Sb S b $S_b$ :

S b = (μ 0 - μ 1) (μ 0 - μ 1) T

$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$
所以J可以重写为：

J = = w T S b w w T S w w

$J=={{w^TS_bw} \over {w^TS_ww}}$

这就是LDA要最大化的目标，即 $S_b$ 与 $S_w$ 的广义瑞利商。
可以看到，上式分子分母都是w的二次项，所以解与w的长度无关，只与其方向有关，不失一般性，令 $w^TS_ww=1$ ,则上式等价于

min w - w T S b w s . t . w T S w w = 1

$\min_w \ -w^TS_bw\\ s.t. \ \ \ \ w^TS_ww=1$

由拉格朗日乘子法，上式等价于：

S b w = λ S w w

$S_bw=\lambda S_ww$

Sbw=(μ0−μ1)(μ0−μ1)Tw S b w = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w $S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$ ,其中

(μ0−μ1)Tw ( μ 0 − μ 1 ) T w $(\mu_0-\mu_1)^Tw$ 是一个标量，所以

Sbw S b w $S_bw$ 的方向恒为

μ0−μ1 μ 0 − μ 1 $\mu_0-\mu_1$ ,故有：

Sbw=λ(μ0−μ1) S b w = λ ( μ 0 − μ 1 ) $S_bw=\lambda(\mu_0-\mu_1)$ .

所以可以得到： $w=S_w^{-1}(\mu_0-\mu_1)$

当两类数据同先验，满足高斯分布且协方差相等时，LDA可以达到最优分类！

LDA推广到多分类任务中，emmmmm以后再看吧

lucky_yang_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习线性模型(2)

我们已经知道如何使用线性模型进行回归学习，如果要做分类任务呢？广义线性模型：y=g−1(wTx+b)y=g−1(wTx+b)y=g^{-1}(\mathbf{w}^T\mathbf{x}+b)现在只需找到一个单调可微函数g−1g−1g^{-1}将分类任务的真实标记yyy与线性回归模型的预测值wTx+bwTx+b\mathbf{w}^T\mathbf{x}+b联系起来.考虑二分类任务，y...
复制链接

扫一扫