【机器学习笔记】第三章：线性模型

浪里摸鱼

已于 2024-04-11 09:29:02 修改

阅读量457

点赞数

分类专栏：机器学习文章标签： python 机器学习深度学习西瓜书

于 2021-07-19 20:45:56 首次发布

本文链接：https://blog.csdn.net/weixin_42802447/article/details/118913817

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

3.1 一元线性回归

线性模型试图学得一个通过属性的线性组合来进行预测的函数，即 $f(x)=w_{1}x_{1}+w_{2}x_{2}+...+w_{d}x_{d}+b\tag{3.1}$ 一般用向量形式写成 $f(x)=\omega^{T}x+b\tag{3.2}$ 其中 $\omega=(w_{1},w_{2},...,w_{d})$ . $\omega$ 和 $b$ 训练之后确定模型。

线性模型的优点：
形式简单，易于建模；
具有很好的可解释性；
$\omega$ 直观表达了各属性在预测中的重要性

3.2 多元线性回归

线性回归训练一个尽可能准确地预测输出的线性模型
确定 $\omega,b$ 的关键在于如何衡量 $f (x)$ 与 $y$ 之间的差别，均方误差是最常用的性能度量（损失函数），即 $\begin{aligned} (\omega^{},b^{})&=argmin_{(\omega,x)}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}\ &=argmin_{(\omega,x)}\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}\ \end{aligned}\tag{3.4}$ 基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使得所有样本到直线上的欧式距离之和最小。
求解 $\omega,b$ 使 $E_{(w,b)}=\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ 最小化的过程，称为线性回归模型的最小二乘 “参数估计”。
$E_{(w,b)}$ 对 $\omega,b$ 分别求导得到：
$\begin{aligned} \frac{\partial E_{w,b}}{\partial w}=2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i}) \end{aligned}\tag{3.5}\$

$\begin{aligned} \frac{\partial E_{w,b}}{\partial b}=2(mb-\sum_{i=1}^{m}(y_{i}-b)) \end{aligned}\tag{3.6}$

令（3.5）（3.6）为0可得 $\omega,b$ 最优的闭式解
$\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\bar{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m})^2}\tag{3.7}$

$b=\frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})\tag{3.8}$
其中， $\bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}$ 为 $x$ 的均值。
延伸而来， $f(x_{i})=\omega^{T}x_{i}+b,使得f(x_{i}\simeq y_{i})$ 这被称为多元线性回归。

类似的，可利用最小二乘法对 $w, b$ 进行估计。令 $\hat{\boldsymbol{w}}=(w,b)$ ，数据集 $D$ 表示为一个 $\times (d+1)$ 的矩阵 $X$ ：

$\boldsymbol{X}=\left( \begin{matrix} x_{11} & x_{11} &\cdots & x_{1d} &1\\x_{21} & x_{22} &\cdots & x_{2d} &1 \\ \vdots & \vdots &\cdots & \vdots &\vdots\\ x_{m1} & x_{m2} &\cdots & x_{md} &1\ \end{matrix} \right)= \left( \begin{matrix} x_{1}^{T} & 1\\ x_{2}^{T} & 1 \\ \vdots & \vdots\\ x_{m}^{T} & 1\\\end{matrix} \right)$

再把标记写成向量形式 $\boldsymbol{y}=(y_{1};y{2};...;y_{m})$ ，则有 $\hat{\boldsymbol{w}}^{*}=argmin_{\hat{\boldsymbol{w}}}(\boldsymbol{y}-\boldsymbol{X\hat{w}})^{T}(\boldsymbol{y}-\boldsymbol{X\hat{w}})\tag{3.9}$ 令 $E_{\hat{w}}=(\boldsymbol{y}-\boldsymbol{X\hat{w}})^{T}(\boldsymbol{y}-\boldsymbol{X\hat{w}})$ ，对 $\hat{\boldsymbol{w}}$ 求导可得： $\frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2\boldsymbol{X}^{T}(\boldsymbol{X} \hat{\boldsymbol{w}}-\boldsymbol{y})\tag{3.10}$
令上式为0即为 $\boldsymbol{\hat{w}}$ 最优解的闭式解。

做简单讨论：
当 $\boldsymbol{X}^{T}\boldsymbol{X}$ 为满秩矩阵或者正定矩阵时，令（3.10）为0可得：

$\boldsymbol{\hat{w}^*}=(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}\tag{3.11}$
其中， $(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}$ 是 $(\boldsymbol{X}^{T}\boldsymbol{X}）$ 的逆矩阵，令 $\boldsymbol{\hat{x}{i}}=(\boldsymbol{x{i}},1)$ ，则最终学得的多元线性回归模型为： $f(\hat{x_{i}})=\hat{x}_{i}^{T}(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}\tag{3.12}$
但现实任务中， $(\boldsymbol{X}^{T}\boldsymbol{X})$ 往往不是满秩矩阵（例如变量数超过样例数），此时可以解出多个 $\boldsymbol{\hat{w}}$ ，均满足均方误差最小化的要求，对于解的选择将由学习算法的归纳偏好决定，常见的做法是引入正则化项。
广义的线性模型： $y=g^{-1}(\mathbf{w}^{T}\mathbf{x}+b)\tag{3.15}$
其中 $g (\cdot)$ 称为“联系函数”，为1时就是最简单的一元线性模型， $g (\cdot) = l n (\cdot)$ 时就是对数线性回归。

3.3 对数几率回归

对于分类任务，只需找到一个单调可微函数将分类任务的真是标记 $y$ 与线性回归模型的预测值联系起来。

考虑二分类任务，其输出标记 $y\in{0,1}$ ，而线性回归模型产生的预测值 $z = ω^{T}x +b$ 是实值，需将实值 $z$ 转换为0/ 1 值. 最理想的是"单位阶跃函数" $\begin{cases} 0, &z<0;\ 0.5, &z=0;\ 1,&z>0, \end{cases} \tag{3.16}$

但是单位阶跃函数不连续，不能直接用作 $g^{-}(·)$ ，因此需要找到一个可以近似替代且单调可微函数–>对数几率函数： $y=\frac{1}{1+e^{-z}}\tag{3.17}$ 代入线性模型可得： $y=\frac{1}{1+e^{-(\mathbf{w}^{T}\mathbf{x}+b)}}\tag{3.18}$ 整理可得： $ln\frac{y}{1-y}=\mathbf{w}^{T}\mathbf{x}+b\tag{3.9}$ 若将 $y$ 视为样本 $\mathbf{x}$ 作为正例的可能性，则 $1 - y$ 则是反例可能性，两者的比值 $\frac{y}{1-y}\tag{3.20}$ 称为“几率”，取对数则得到“对数几率” $ln\frac{y}{1-y}\tag{3.21}$ -->实际上式（3.18）是在用线性回归模型预测结果去逼近真实标记的对数几率。

虽然名字是回归，但其实这是一种分类学习方法，具有较多优点：

无需事先假设数据分布，直接对分类可能性建模；
得到近似概率预测，对需要利用概率辅助决策很有用；
对率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解.
将 $y$ 视为类后验概率 $p(y=1|\mathbf{x})$ ，则 $ln\frac{p(y=1|\mathbf{x})}{p(y=0|\mathbf{x})}=\mathbf{w}^{T}\mathbf{x}+b\tag{3.22}$ 显然有 $p(y=1|\mathbf{x})=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}\tag{3.23}$

$p(y=0|\mathbf{x})=\frac{1}{1+e^{w^{T}x+b}}\tag{3.24}$

-->可以通过极大似然估计来估计 $\mathbf{\omega},b$ 。 $\ell(\omega,b)=\sum_{i=1}^{m}lnp(y_{i}|\mathbf{x}{i};\omega,b)\tag{3.25}$ 令 $\beta=(\omega;b)$ ， $\hat{x}=(x;1)$ ，则 $\omega^{T}x+b$ 可简化为 $\beta^{T}\hat{x}$ 。再令 $p{1}(\hat{x};\beta)=p(y=1|\hat{x;\beta}),p_{0}(\hat{x};\beta)=p(y=0|\hat{x;\beta})=1-p_{1}(\hat{x};\beta)$ ，则（3.25）中的似然项可写为 $p(y_{i}|x_{i};\omega,x)=y_{i}p_{1}(\hat{x_{i}};\beta)+(1-y_{i})p_{0}(\hat{x_{i}};\beta)\tag{3.26}$

将（3.26）代入（3.25），并根据（3.23）和（3.24）可知，最大化（3.25）等价于最小化 $\ell(\beta)=\sum_{i=1}^{m}(-y_{i}\beta^{T}\hat{x_{i}}+ln(1+e^{\beta^{T}\hat{x}}))\tag{3.27}$ 式(3.27)是关于 $β$ 的高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解，于是就得到 $\beta^{*}=argmin_{\beta}\ell(\beta)\tag{3.28}$

3.4 线性判别分析

思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的直线上，再根据投影点位置来确定新的样本的类别。

给定数据集 $(x_{i},y_{i})}{i=1}^{m},y{i} \in{0,1}$ ，令 $x_{i},\mu,\sum_{i}$ 分别表示第 $i\in{0,1}$ 类示例的集合、均值向量、协方差矩阵.若将数据投影到直线 $w$ 上，则两类样本的中心在直线上的投影分别为 $w^{T}\mu_{0}$ 和 $w^{T}\mu_{1}$ ; 若将所有样本点都投影到直线上，则两类样本的协方差分别为 $w^{T}\sum_{0}w$ 和 $w^{T}\sum_{1}w$ 。由于直线是一维空间，因此投影和协方差均为实数。

同类样例投影点尽可能接近：协方差尽可能小；

异类样例投影点尽可能远离：类中心之间的距离尽可能大；即 $||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2}$ 尽可能大。

两者结合，则可得到欲最大化的目标 $\begin{aligned} J&=\frac{||w^{T}\mu_{0}-w^{T}\mu_{1}||{2}^{2}}{w^{T}\sum{0}w+w^{T}\sum_{1}w}\ &=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\sum_{0}+\sum_{1})w} \end{aligned} \tag{3.32}$

定义"类内散度矩阵"： $\begin{aligned} S_{w}&=\sum\ {0}+\sum\ {1}\ &=\sum{x\in X{0}}(x-\mu_{0})(x-\mu_{0})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}\ \end{aligned} \tag{3.33}$

以及“类间散度矩阵”： $\begin{aligned} S_{b}&=(\mu _{0}-\mu _{1})(\mu {0}-\mu {1})^{T}\ \end{aligned} \tag{3.33}$

则（3.32）可重写为 $J=\frac{w^{T}S{b}w}{w^{T}S{w}w}\tag{3.35}$ 这就是LDA的最大化目标。

由于（3.35）分子分母都是关于 $w$ 的二次项，所以解与 $w$ 的长度无关，只与其方向有关。令 $w^{T}S_{w}w=1$ ，则（3.35）等价于 $\begin{aligned} &min_{w}\ &-w^{T}S_{b}w\ &s.t.\ &w^{T}S_{w}w\ \end{aligned} \tag{3.36}$ 由拉格朗日乘子法，上式等价于 $S_{b}w=\lambda S_{w}w\tag{3.37}$ 其中 $\lambda$ 是拉格朗日乘子。注意到 $S_{b}w$ 的方向恒为 $\mu_{0}-\mu_{1}$ ，不妨令 $S_{b}w=\lambda(\mu_{0}-\mu_{1})\tag{3.38}$ 代入（3.37）可得 $w=S_{w}^{-1}(\mu_{0}-\mu_{1})\tag{3.39}$ LDA可从贝叶斯决策理论的角度来阐释，并可证明当类数据同先验、满足高斯分布且协方差相等时，LDA可达到最有分类。

$max_{W}\frac{tr(W^TS_{b}W)}{trW^{T}S_{w}W}\tag{3.44}$ 其中， $W\in \mathbb{R}^{d\times(N-1)},tr(·)$ 表示矩阵的迹。（3.44）可以通过如下广义特征值问题求解： $S_{b}W=\lambda S_{w}W\tag{3.45}$ W的闭式解是 $S_{W}^{-1}S_{b}$ 的N-1个最大广义特征值所对应的特征向量组成的举证。