回归和分类的线性模型

XDU微积冯

已于 2022-12-04 18:23:37 修改

阅读量7.7k

点赞数

文章标签：回归人工智能

于 2022-12-04 10:27:08 首次发布

本文链接：https://blog.csdn.net/FKH20009200446/article/details/128169637

版权

由于后面会有专门的一章来讲贝叶斯理论下的模型推导，故本章的所有推导将仅限于最大似然理论。需要掌握的内容可以简单的罗列为：

回归：线性回归模型(损失函数及其求解)；
回归：判别式模型、概率生成式模型、概率判别式模型。

由于不涉及贝叶斯理论的模型都比较容易推导，故忽略了一些公式的具体推导。而对于一些重要的推导，我们用引用格式作为补充，如下所示：

written by XDU微积冯

如果不感兴趣或者已经了解的，可以自动忽略这些补充。

1. 回归的线性模型

重点掌握式(3)(6)(11)，以及最优解w的表达式(会推导最好)。

1.1 线性回归的输入和损失函数的定义

设单个数据表示为 $\pmb{x}=\{x_1,x_2,...,x_D\}\in\R^D$ ，数据集 $X=\{\pmb{x_1},...,\pmb{x_N} \}$ ，目标变量 $\pmb{t}=\{t_1,...,t_N \}$ 则用简单的线性回归，预测值可以表示为：
$y(\pmb{x},\pmb{w}) = w_0+w_1x_1+...+w_Dx_D = w_0+\sum_{i=1}^Dw_ix_i=\pmb{w}^T\pmb{x} \tag{1}$
由于简单的变量线性组合会给模型造成局限性，我们引入基函数 $\phi(\pmb{x})$ ，将多个基函数进行线性组合，有：
$y(\pmb{x},\pmb{w}) = w_0+\sum_{i=1}^{M-1}w_i\phi_i(\pmb{x}) = \sum_{j=0}^{M-1}w_j\phi_j(\pmb{x}) =\pmb{w}^T\pmb{\phi}(\pmb{x}) \tag{2}$
其中 $\pmb{\phi}\in \R^M$ 。式(2)将作为模型方程在下文中应用。

对于损失函数，我们采用平方和损失
$E_D(\pmb{w}) = \frac{1}{2}\sum_{n=1}^N(t_n-y(\pmb{w},\pmb{x}_n))=\frac{1}{2}\sum_{n=1}^N(t_n-\pmb{w}^T\pmb{\phi}(\pmb{x_n}))^2 \tag{3}$

我们可以用最大似然的理论解释平方和损失，首先我们假设目标变量 $t$ 由确定的函数 $y(\pmb{x},\pmb{w})$ 给出，并添加一个均值为0，方差为 $\beta^{-1}$ 的高斯噪声 $\epsilon$ ，即
$y(\pmb{x},\pmb{w})+\epsilon = \mathcal{N}(t|y(\pmb{x},\pmb{w}),\beta^{-1}) \tag{4}$
我们构造似然函数：
$\begin{aligned} \ln p(\pmb{t}|X,\pmb{w},\beta) &= \ln \prod_{n=1}^N\mathcal{N}(t_n|y(\pmb{x}_n,\pmb{w}),\beta^{-1})\\ &= -\frac{\beta}{2}\sum_{n=1}^N \{t_n-\pmb{w}^T\pmb{\phi}(\pmb{x}_n) \}^2-\frac{N}{2}\ln(2\pi) + \frac{N}{2}\ln \beta\\ &= -\beta E_D(\pmb{w}) -\frac{N}{2}\ln(2\pi) + \frac{N}{2}\ln\beta \end{aligned}\tag{5}$
可以看到与参数 $w$ 相关的项即为平方和损失表达式。

1.2 线性回归的最优参数

由于平方和损失代表了似然函数中与 $w$ 有关的项，故我们直接对平方和损失求偏导：
$\nabla\ln p(\pmb{t}|X,\pmb{w},\beta) = -\beta\sum_{n=1}^N\{t_n-\pmb{w}^T\pmb{\phi}(\pmb{x}_n) \}\pmb{\phi}(\pmb{x}_n)^T \tag{6}$
我们令偏导为零，可以得到：
$\sum_{n=1}^N t_n\pmb{\phi}(\pmb{x}_n) - \pmb{w}^T\sum_{n=1}^N \pmb{\phi}(\pmb{x}_n)\pmb{\phi}(\pmb{x}_n)^T \tag{7}$
求解得：
$\pmb{w}_{MAP} = (\pmb{\Phi}^T\pmb{\Phi})^{-1}\pmb{\Phi}\pmb{\text{t}}\\ \text{if 不使用基函数}\phi,\quad \pmb{w}_{MAP}=(X^TX)^{-1}X\pmb{t} \tag{8}$
这里 $\pmb{\Phi}\in \R^{N\times M}$ ，具体含义很好理解，这里不再赘述。

这里如果使用飞桨PPT中的平均平方和损失，是不能得出式(8)的结果的，由于存在m，这里提出更正。

在飞桨中，还使用梯度下降方法迭代得到最优的权重参数 $w$ ，我们可以看一下它的表达式：
$w_j = w_j - \alpha\frac{1}{N}\sum_{i=1}^M(y(\pmb{x}_i,\pmb{w})-t_i)\cdot x_i \tag{9}$
最终应该可以迭代出和式(8)相同的结果。

1.3 正则化损失函数

为控制最大似然方法带来的过拟合，我们在损失函数中加入正则化项，如
$E(\pmb{w}) = \sum_{n=1}^N \{t_n-\pmb{w}^T\pmb{\phi}(\pmb{x}_n) \}^2 + \frac{\lambda}{2}\pmb{w}^T\pmb{w}\tag{10}$
类似于式(7)，我们对上式对 $w$ 求偏导，有
$-\sum_{n=1}^Nt_n\pmb{\phi}(\pmb{x}_n) + \pmb{w}^T\sum_{n=1}^N \pmb{\phi}(\pmb{x}_n)\pmb{\phi}(\pmb{x}_n)^T + \lambda\pmb{w} = 0\tag{11}$
可得
$\pmb{w}_{MAP} = (\lambda\pmb{I} + \pmb{\Phi}^T\pmb{\Phi})^{-1}\pmb{\Phi}\pmb{\text{t}} \tag{12}$
相应地，梯度下降时也需要考虑正则化项
$w_j = w_j^{old} - \alpha\{\frac{1}{N}\sum_{i=1}^N(y(\pmb{x}_i,\pmb{w})-t_i)\cdot\pmb{x}_i+\frac{\lambda}{N}w_j^{old} \}\tag{13}$

2. 分类的线性模型

2.1 判别式模型(构造判别函数)

2.1.1 简单的线性函数

考虑二分类问题，设类别为 $C_1,C_2$ ，我们使用最简单的线性函数：
$y(\pmb{x}) = \pmb{w}^T\pmb{x}+w_0\tag{14}$
我们设当 $y(\pmb{x})\geq 0$ 时 $\pmb{x}$ 属于 $C_1$ ，反之属于 $C_2$ 。因此决策边界由 $y(\pmb{x})=0$ 确定，其中 $\pmb{w}$ 确定了决策面的方向。

原点到决策面的距离可以由下图中的公式计算：

我们考虑任何一点 $\pmb{x}$ 和它在决策面上的投影 $\pmb{x}_\bot$ ，有
$\pmb{x} = \pmb{x}_\bot + r\frac{\pmb{w}}{\lVert \pmb{w}\rVert}\tag{15}$
左右同乘 $\pmb{w}^T$ ，再加上 $w_0$ ，可以得到点到直线距离公式：
$y(\pmb{x}) = r \lVert \pmb{w}\rVert\\ r = \frac{y(\pmb{x})}{\Vert \pmb{w}\Vert}\tag{16}$

现在我们再考虑多分类问题。在多分类问题中判别函数的设计可以是"一对其他"(即分类结果是属于该类或不属于该类)、“一对一”(即每次取两类，分类结果是两类中的一个)，这样的两种设计会造成有空间无法判断类别的情况。于是我们采用K类判别函数，避免上述情况发生：
$y_k(\pmb{x}) = \pmb{w}_k^T\pmb{x} + w_{k0}\tag{17}$
判别条件为
$\text{if} \qquad y_k(\pmb{x})>y_i(\pmb{x}),\quad\forall i\neq k,\qquad \text{then } \pmb{x}\in C_k \tag{18}$
任意两类的决策面为
$(\pmb{w}_k-\pmb{w}_j)^T\pmb{x} + (w_{k0}-w_{j0}) = 0\tag{19}$

2.1.2 最小平方方法(求解2.1.1)

我们还是使用K类判别函数式(17)作为判别函数，那么对于每个数据 $\pmb{x}$ ，都会有K个判别函数，我们将其组合在一起，有：
$\pmb{y}(\pmb{x}) = \tilde W^T \tilde{\pmb{x}}\tag{20}$
其中 $\tilde{W}\in \R^{K\times (D+1)}$ ，D+1表示的 $\tilde{\pmb{x}}=(\pmb{x},1)$ 的维度。

另外，我们再设 $\tilde X\in \R^{N\times (D+1)}$ 中第i行代表数据 $\pmb{x}_i$ ， $T\in\R^{N}$ 代表所有目标变量（即输出集合）。则根据平方和损失公式，我们有
$E_D(\tilde{W}) = \frac{1}{2}\text{Tr}\{(\tilde X\tilde{W}-T)^T(\tilde X\tilde W-T) \}\tag{21}$
类似于式(8)，我们得到最优解
$\tilde W = (\tilde X^T\tilde X)^{-1}\tilde XT = \tilde X^{\dagger}T\tag{22}$
其中 $\tilde X^{\dagger}$ 被称为伪逆矩阵。

2.1.3 感知器算法

感知器算法是二分类模型。设有两个类别 $C_1,C_2$ ，目标变量分别为+1,-1，则其判别函数形式为
$y(\pmb{x}) = f(\pmb{w}^T\pmb{\phi}(\pmb{x})) \tag{23}$
其中非线性激活函数 $f$ 满足：
$\begin{cases} +1,\quad a\geq 0\\ -1,\quad a< 0 \end{cases} \tag{24}$
现在，我们使用感知器准则来得出它的损失函数：设 $t = + 1$ 表示类别 $C_1$ ， $t = - 1$ 表示类别 $C_2$ ，由(2)可得
$\pmb{w}^T\pmb{\phi}(\pmb{x}_n)t_n\geq 0,\quad \forall n=1,2,...,N\tag{25}$
于是感知器准则将分类正确的样本，给予损失为0，若分类错误，即 $\pmb{w}^T\pmb{\phi}(\pmb{x}_n)t_n< 0$ ，损失为 $-\pmb{w}^T\pmb{\phi}(\pmb{x}_n)t_n$ ，于是损失为：
$E_P(\pmb{w}) = -\sum_{n\in \mathcal{M}}\pmb{w}^T\pmb{\phi}(\pmb{x}_n)t_n \tag{26}$
其中 $\mathcal{M}$ 表示错分的样本集。我们可以对误差函数(26)使用梯度下降法更新：
$\pmb{w}^{\tau+1} = \pmb{w}^{\tau}-\eta\nabla E_P(\pmb{w}) = \pmb{w}^{\tau} + \eta\ \pmb{\phi}_nt_n\tag{27}$

感知器收敛定理表明，对于线性可分数据，感知器算法保证在有限步内收敛(找到精确解)。但其余情况则不保证收敛。
感知器算法无法以概率形式输出。
无法直接推广到K>2的情况。

2.2 概率判别式模型

2.2.1 Logistic回归

Logistic回归使用了具有如下性质的激活函数：
在这里插入图片描述

该函数被称为logistic sigmoid函数，用符号 $\sigma(\cdot)$ 表示。可以看到该函数的值域为 $[0, 1]$ 。

针对二分类问题和类别 $C_1,C_2$ ，由上述函数作激活函数，对输入的非线性变换 $\pmb{\phi}(\pmb{x})$ (简写为 $\pmb{\phi}$ )，有：
$p(C_1|\pmb{\phi}) = y(\pmb{\phi})=\sigma(\pmb{w}^T\pmb{\phi})\\ y(C_2|\pmb{\phi}) = 1-p(C_1|\pmb{\phi})\tag{28}$
对于数据集 $X=\{\pmb{x_1},...,\pmb{x}_n \},\pmb{t}=\{t_1,...,t_n\}(t_i\in\{0,1\})$ ，似然函数可写为：
$p(\pmb{t}|\pmb{w}) = \prod_{n=1}^N y_n^{t_n}(1-y_n)^{1-t_n},\qquad y_n=\sigma(\pmb{w}^T\pmb{\phi}_n)\tag{29}$
我们把损失函数定义为似然函数的负对数(交叉熵损失)，有
$E(\pmb{w}) = -\ln p(\pmb{t}|\pmb{w}) = -\sum_{n=1}^N \{t_n\ln y_n + (1-t_n)\ln (1-y_n)\}\tag{30}$
对参数 $w$ 求偏导有:

$\begin{aligned} \nabla E(\pmb{w}) &= \sum_{j=1}^N\frac{\partial E}{\partial y_j}\frac{\partial y_j}{\partial \pmb{w}} \\ &= -\sum_{n=1}^N \{t_n(1-y_n)\pmb{\phi}_n-(1-t_n)y_n\pmb{\phi}_n \}\\ &= \sum_{n=1}^N (y_n-t_n)\pmb{\phi}_n \end{aligned}\tag{31}$

其中， $y_n' = \sigma(\pmb{w}^T\pmb{\phi})=\sigma(1-\sigma)\pmb{\phi}$ ，使用了Logistic sigmoid函数的导数性质。

PPT中使用梯度下降法更新得到收敛的最优参数 $\pmb{w}_{MAP}$ ，但我们采用Newton-Raphson法：
$\pmb{w}^{new} = \pmb{w}^{old}-H^{-1}\nabla E(\pmb{w}) \tag{32}$
由(31)可得，
$\nabla E(\pmb{w}) = \sum_{n=1}^N(y_n-t_n)\pmb{\phi}_n=\pmb{\Phi}^T(\pmb{y}-\pmb{t}) \\ H=\nabla\nabla E(\pmb{w}) = \sum_{n=1}^N y_n(1-y_n)\pmb{\phi}_n\pmb{\phi}_n^T = \pmb{\Phi}^TR\pmb{\Phi} \tag{33}$
其中R为对角矩阵， $R_{nn}=y_n(1-y_n)$ 。

公式(32)可更新为：
$\begin{aligned} \pmb{w}^{new} &= \pmb{w}^{old} - (\pmb{\Phi}^TR\pmb{\Phi})^{-1}\pmb{\Phi}^T(\pmb{y}-\pmb{t})\\ &= (\pmb{\Phi}^TR\pmb{\Phi})^{-1}\{\pmb{\Phi}^TR\pmb{\Phi}\pmb{w}^{old}-\pmb{\Phi}^T(\pmb{y}-\pmb{t}) \\ &= (\pmb{\Phi}^TR\pmb{\Phi})^{-1}\pmb{\Phi}^TR\pmb{z}\\ \end{aligned}\tag{34}$
其中
$\pmb{z} = \pmb{\Phi}\pmb{w}^{old}-R^{-1}(\pmb{y}-\pmb{t})\tag{35}$