机器学习-线性模型

最新推荐文章于 2020-10-30 16:41:47 发布

NCGMaker

最新推荐文章于 2020-10-30 16:41:47 发布

阅读量240

点赞数

本文链接：https://blog.csdn.net/NCGMaker/article/details/105609546

版权

文章目录

线性模型

线性模型

线性模型是指预测函数为线性函数的模型，即
$f(\bm{x}) = \omega_{1}x_{1} + \omega_{2}x_{2} + \ldots \omega_{d}x_{d} + b,$
用向量形式则可写为
$f(\bm{x}) = \bm{\omega}^{\text{T}} \bm{x} + b,$
其中， $\bm{\omega} = \left(\omega_{1}; \omega_{2}; \ldots; \omega_{d} \right)$ 为权重向量， $\bm{x} = \left(x_{1}; x_{2}; \ldots; x_{d}\right)$ 为特征向量。

线性回归

首先考虑一种简单的情形：输入属性的数目只有一个，也就是单变量线性回归。
单变量线性回归试图学得函数
$f(x_{i}) = \omega x_{i} + b$
并且使得预测值和真实值的误差尽可能小。

接下来我们通过让均方误差最小化来确定模型中的参数，即
$\begin{aligned} \left( \omega^{*}, b^{*}\right) &= \mathop{\arg \min} \limits_{\left( \omega, b\right)} \sum_{i=1}^{m} \left(f(x_{i}) - y_{i}\right)^{2} \\ & = \mathop{\arg \min} \limits_{\left( \omega, b\right)} \sum_{i=1}^{m} \left(\omega x_{i} + b - y_{i}\right)^{2} \end{aligned}$
由最小二乘法，可以求得 $\omega, b$ 的闭式解。

同样的，对于多元线性回归
$f(\bm{x}_{i}) = \bm{\omega}^{\text{T}} x_{i} + b， \quad \text{s.t.} f(\bm{x}_{i}) \simeq y_{i},$
我们也利用最小二乘法来估计参数 $\bm{\omega}, b$ .

为此，我们先对权重向量和特征向量增广，即
$\begin{aligned} \hat{\bm{\omega}} &= \left(\bm{\omega}, b\right), \\ \bm{X} &= \left(\bm{x}, 1\right), \end{aligned}$

则最优解必定满足
$\hat{\bm{\omega}}^{*} = \mathop{\arg \min} \limits_{\hat{\bm{\omega}}} \left( \bm{y} - \bm{X} \hat{\bm{\omega}}\right)^{\text{T}} \left( \bm{y} - \bm{X} \hat{\bm{\omega}}\right).$
令
$E_{\hat{\bm{\omega}}} = \left( \bm{y} - \bm{X} \hat{\bm{\omega}}\right)^{\text{T}} \left( \bm{y} - \bm{X} \hat{\bm{\omega}}\right)$ ，对 $\hat{\bm{\omega}}$ 求导可得
$\frac{\partial E_{\hat{\bm{\omega}}}}{\partial \hat{\bm{\omega}} } = 2\bm{X}^{\text{T}} \left(\bm{X} \hat{\bm{\omega}} - \bm{y}\right).$
令上式等于零可以得到 $\hat{\bm{\omega}}$ 最优解的闭式解。

对数几率回归

考虑广义线性模型
$g^{-1}(\bm{\omega}^{\text{T}} \bm{x} + b),$
其中， $g (x)$ 是单调可微函数，称为联系函数。令 $\ln(x)$ , 我们便得到了对数线性回归。

如果联系函数取对数几率函数
$\frac{1}{1+ \exp{(-x)}},$
便得到了对数几率回归
$\frac{1}{1+ \exp[-{\left(\bm{\omega}^{\text{T}} \bm{x} + b\right)}]}.$
等价地，我们有
$\ln\frac{h}{1-h} = \bm{\omega}^{\text{T}} \bm{x} + b.$
对于二分类问题，若将 $h$ 看作样本 $\bm{x}$ 作为正例的可能性，则 $1 - h$ 是其作为反例的可能性。两者的比值称为几率。若将 $h$ 视为类后验概率 $\bm{x}),$ 并且令
$\begin{aligned} \bm{\beta} &= (\bm{\omega}, b), \\ \hat{\bm{x}} &= (\bm{x},1). \end{aligned}$
样本属于每个类的概率统一写成
$p(y|\bm{x}, \bm{\beta}) = \left(h(\bm{x})\right)^{y} \left(1 - h(\bm{x})\right)^{1-y}.$
因此，训练集的似然函数为
$l(\bm{\beta}) = \prod_{i =1}^{m} p(y_{i} | \bm{x}_{i}, \bm{\beta}) = \prod_{i =1}^{m} \left(h(\bm{x}_{i})\right)^{y_{i}} \left(1 - h(\bm{x}_{i})\right)^{1-y_{i}}.$
取对数后，得到对数似然函数
$L(\bm{\beta}) = \ln(l(\bm{\beta})) = \sum_{i=1}^{m} \left[ y_{i}\ln h(\bm{x}_{i}) + (1-y_{i}) \ln(1-h(\bm{x}_{i}))\right].$
最后，我们可以通过梯度下降法获得其最优解。

线性判别分析

线性判别分析(Linear Discriminant Analysis, LDA)的基本思想是：通过线性投影使得同类样本间的差异最小化，不同类样本之间的差异最大化。具体的做法是寻找一个投影矩阵 $\bm{W}$ ，样本的特征向量 $\bm{x}$ 经过投影之后得到
$\bm{y} = \bm{W} \bm{x},$
其中 $\bm{y}$ 是低维空间的特征向量。

接下来我们的目标就是要获取这个投影矩阵，首先考虑把向量映射到一维空间。给定数据集 $\{ (\bm{x}_{i}, y_{i})\}_{i=1}^{m}, \quad y_{i} = \{0,1\},$ 令 $X_{i}, \, \bm{\mu}_{i}, \, \bm{\Sigma}_{i}$ 分别表示第 $\in \{0, 1\}$ 类示例的集合，均值向量、协方差矩阵。若将数据投影到直线 $\bm{\omega}$ 上，则可得样本的均值向量为
$\bm{\omega}^{\text{T}} \bm{\mu}_{i}, \, i \in \{0, 1\},$
协方差矩阵为
$\bm{\omega}^{\text{T}} \bm{\Sigma}_{i}\bm{\omega}, \, i \in \{0, 1\}.$

为了让同类样本间的差异最小化，可以让同类样本投影点的协方差尽可能小；而为了让不同类样本之间的差异最大化，可以让类中心之间的距离尽可能的大。综合考虑二者，可以得到需要最大化的目标
$\begin{aligned} J & = \frac{|| \bm{\omega}^{\text{T}} \bm{\mu}_{0} -\bm{\omega}^{\text{T}} \bm{\mu}_{1} ||_{2}^{2}}{\bm{\omega}^{\text{T}} \bm{\Sigma}_{0}\bm{\omega} + \bm{\omega}^{\text{T}} \bm{\Sigma}_{1}\bm{\omega}} \\ & = \frac{\bm{\omega}^{\text{T}} \left(\bm{\mu}_{0}- \bm{\mu}_{1}\right)\left(\bm{\mu}_{0}- \bm{\mu}_{1}\right)^{\text{T}} \bm{\omega}}{\bm{\omega}^{\text{T}} \left( \bm{\Sigma}_{0} + \bm{\Sigma}_{1}\right)\bm{\omega}}. \end{aligned}$

定义类内散度矩阵
$\begin{aligned} \bm{S}_{\omega} & = \bm{\Sigma}_{0} + \bm{\Sigma}_{1} \\ & = \sum_{\bm{x} \in X_{0}}(\bm{x} - \bm{\mu}_{0})(\bm{x} - \bm{\mu}_{0})^{\text{T}} + \sum_{\bm{x} \in X_{1}}(\bm{x} - \bm{\mu}_{1})(\bm{x} - \bm{\mu}_{1})^{\text{T}} \end{aligned}$
和类间散度矩阵
$\bm{S}_{b} = \left( \bm{\mu}_{0} - \bm{\mu}_{1}\right) \left( \bm{\mu}_{0} - \bm{\mu}_{1}\right)^{\text{T}},$
则
$\frac{\bm{\omega}^{\text{T} } \bm{S}_{b} \bm{\omega}}{\bm{\omega}^{\text{T} } \bm{S}_{\omega} \bm{\omega}},$
此即 $\bm{S}_{b}$ 和 $\bm{S}_{\omega}$ 的广义瑞利商。

接下来，我们来确定模型中的参数，考虑到此最优化问题的解不唯一，因此，可以加上一个约束条件简化问题
$\bm{\omega}^{\text{T} } \bm{S}_{\omega} \bm{\omega} = 1.$
这样，上面的最优化问题转化为
$\begin{aligned} &\mathop{ \min} \limits_{\bm{\omega}} \quad - \bm{\omega}^{\text{T} } \bm{S}_{b} \bm{\omega} \\ & \text{s.t.} \quad \bm{\omega}^{\text{T} } \bm{S}_{\omega} \bm{\omega} = 1 \end{aligned}$
由拉格朗日乘子法可知上式等价于
$\bm{S}_{b} \bm{\omega} = \lambda \bm{S}_{\omega} \bm{\omega},$
如果 $\bm{S}_{\omega}$ 可逆，则有
$\bm{S}_{\omega}^{-1} \bm{S}_{b} \bm{\omega } = \lambda \bm{\omega}.$

接下来我们将其推广到多分类问题中，假定存在 $N$ 个类，且第 $i$ 类样本数为 $m_{i}$ ,

定义全局散度矩阵
$\begin{aligned} \bm{S}_{t} &= \bm{S}_{b} + \bm{S}_{\omega} \\ & = \sum_{i=1}^{m} \left(\bm{x}_{i} - \bm{\mu} \right)\left(\bm{x}_{i} -\bm{ \mu} \right)^{\text{T}} \end{aligned},$
以及类内散度矩阵
$\bm{S}_{\bm{\omega}} = \sum_{i=1}^{N} \bm{S}_{\omega_{i}},$
其中，
$\bm{S}_{\omega_{i}} = \sum_{\bm{x} \in X_{i}} \left(\bm{x} - \bm{\mu}_{i}\right)\left(\bm{x} - \bm{\mu}_{i}\right)^{\text{T}}.$
由上面这些表达式，可得
$\bm{S}_{b} = \bm{S}_{t} - \bm{S}_{\omega} = \sum_{i=1}^{N} m_{i}\left( \bm{\mu}_{i} - \bm{\mu}\right) \left( \bm{\mu}_{i} - \bm{\mu}\right)^{\text{T}}.$

最后，为了实现多分类 LDA ，只要使用 $\bm{S}_{b}, \bm{S}_{t} ,\bm{S}_{\omega}$ 三者中的任何两者即可。通常使用如下的优化目标
$\mathop{\max} \limits_{\bm{W}} \frac{\text{tr} \left( \bm{W}^{\text{T}} \bm{S}_{b} \bm{W}\right)}{\text{tr} \left( \bm{W}^{\text{T}} \bm{S}_{\omega} \bm{W}\right)}.$
而上式可以通过如下的广义特征值问题求解
$\bm{S}_{b} \bm{W} = \lambda \bm{S}_{\omega} \bm{W}.$