CS229第三课——广义线性模型

最新推荐文章于 2024-09-11 15:11:33 发布

sxx01

最新推荐文章于 2024-09-11 15:11:33 发布

阅读量232

点赞数

分类专栏： CS229 文章标签：机器学习

本文链接：https://blog.csdn.net/sxx01/article/details/106489611

版权

CS229 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

CS229第三课

广义线性模型

广义线性模型

我们已经学习了线性回归和逻辑回归模型，在这两种模型中，我们分别假设线性模型 $y|x;\theta \sim \mathcal{N}(\mu, \sigma^2)$ 和逻辑回归模型 $y|x;\theta \sim Bernoulli(\phi)$ ，其中将参数 $\mu$ 和 $\phi$ 定义为关于 $x$ 和 $\theta$ 的函数，在本节中我们将说明这两种模型都属于广义线性模型（GLM）并对其进行讲解。

1 指数族

为了对GLM进行讲解，我们需要先介绍指数族，其中的分布定义为
$p(y;\eta)=b(y)exp(\eta^TT(y)-a(\eta))$
在该式中， $\eta$ 称为分布的自然参数（正则参数）， $T (y)$ 为充分统计量，在我们的研究中 $T (y) = y$ ， $a(\eta)$ 为对数分配函数，其中 $e^{-a(\eta)}$ 通常为一个归一化常数，使得该分布的求和为1.
$T$ 、 $a$ 和 $b$ 的选择定义了一个由 $\eta$ 参数化的分布族；随着 $\eta$ 的变化，我们在该族中得到的分布也不同，接下来我们会介绍高斯分布和伯努利分布是该指数族分布中的一个例子。
伯努利分布给定参数 $\phi$ ，其中 $\in \{0,1\}$ ，因此 $p(y=1;\phi)=\phi;p(y=0;\phi)=1-\phi$ ，随着参数 $\phi$ 的变化，我们可以得到不同均值的伯努利分布，接下来描述如何通过选择指数族分布中的 $T$ 、 $a$ 和 $b$ 来得到参数为 $\phi$ 的伯努利分布。
$\begin{aligned} p(y;\phi) &= \phi^y(1-\phi)^{1-y} \\ &= exp(y\, log(\phi) + (1-y)\,log(1-\phi))\\ &=exp(y\,log(\frac{\phi}{1-\phi})+log(1-\phi)) \end{aligned}$
在上式中， $\eta=log(\frac{\phi}{1-\phi})$ ，因此可以得到 $\phi=\frac{1}{1+e^{-\eta}}$ ，这就是我们之前使用sigmoid函数的格式。将得到的 $\phi$ 代入可以得到
$\begin{aligned} b(y)&=1\\ T(y)&=y \\ a(\eta)&=-log(1-\phi) \\ &=-log(\frac{e^{-\eta}}{1+e^{-\eta}}) \\ &=log(1+e^{\eta}) \end{aligned}$
接下来我们介绍如何从指数族中获取高斯分布，在我们之前介绍的线性回归模型中，方差 $\sigma^2$ 对于模型参数 $\theta$ 没有影响，因此我们可以随意选择方差，为了简化运算，我们将方差 $\sigma^2$ 定为1，运算过程如下
$\begin{aligned} p(y;\mu) &= \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-\mu)^2) \\ &= \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2)exp(y\mu-\frac{1}{2}\mu^2) \end{aligned}$
在上式中可以得到
$\begin{aligned} \eta &= \mu \\ T(y) &= y \\ b(y) &= \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2) \\ a(\eta) &= \frac{1}{2}\eta^2 \end{aligned}$
除了高斯分布、伯努利分布之外，还有其他的分布也属于指数族分布，包括多项式分布、泊松分布、指数分布、beta分布等。

2 构造GLM

接下来我们将介绍如何构造GLM，考虑一个分类或回归问题，我们希望利用 $x$ 的函数的值来预测某个随机变量 $y$ 。为了得到这个问题的GLM，我们将对给定 $x$ 条件下的 $y$ 的条件分布和我们的模型做出以下三个假设:
1. $y|x;\theta \sim ExponentialFamily(\eta)$ ，即给定 $x$ 和 $\theta$ 后，变量 $y$ 满足参数为 $\eta$ 的指数族分布。
2.给定 $x$ ，我们需要来预测 $T (y)$ 的期望值，在我们的大部分实验中，我们设置 $T (y) = y$ ，因此我们希望我们学习的hypothesis的输出能满足 $h (x) = E [y ∣ x]$ 。
3.自然参数 $\eta$ 与输入数据 $x$ 的关系为 $\eta=\theta^Tx$
这三个假设/设计选择将使我们派生出一个非常优雅的学习算法，即GLMs，它具有许多好的特性，例如易于学习，此外生成的模型对于建模 $y$ 上不同类型的分布通常非常有效，我们将介绍逻辑回归和普通最小二乘如何导出为GLM。

2.1 普通最小二乘法

为了证明普通最小二乘法是GLM的一个例子，我们进行如下设置：目标变量 $y$ 是连续的，并且我们在给定 $x$ 的情况下将 $y$ 建模为高斯分布 $\mathcal{N}(\mu,\sigma^2)$ （在这里的 $\mu$ 由 $x$ 决定），在之前关于指数族分布和高斯分布的分析中我们得到了 $\mu=\eta$ ，因此我们可以得到
$\begin{aligned} h_{\theta}(x)&=E[y|x;\theta] \\ &=\mu\\ &=\eta \\ &=\theta^Tx \end{aligned}$

2.2逻辑回归

对于逻辑回归，我们针对二分类问题进行分析 $y\in\{0,1\}$ ，使用伯努利分布进行建模。对于伯努利分布，我们给定参数 $\phi$ ，在之前关于伯努利分布和指数族的关系描述中可以得到 $\phi=\frac{1}{1+e^{-\eta}}$ ，并且当给定 $x$ 时变量 $y$ 满足伯努利分布，即 $y|x;\theta \sim Bernoulli(\phi)$ ，可以得到 $E[y|x;\theta]=\phi$ ，因此我们可以得到
$\begin{aligned} h_{\theta}(x) &= E[y|x;\theta]\\ &= \phi\\ &= \frac{1}{1+e^{-\eta}}\\ &= \frac{1}{1+e^{-\theta^Tx}} \end{aligned}$
因此我们得到了模型 $h_{\theta}(x)=\frac{1}{1+e^{-\theta^Tx}}$ ，在之前我们将 $g (z)$ 函数定义为sigmoid函数是GLM和指数族分布定义的结果。

2.3 Softmax回归

接下来考虑一个多分类的GLM例子，其中的变量 $y\in \{1,2,...,k\}$ 有 $k$ 个值，对于这种问题，我们会使用多项式分布来对其进行建模。
为了使用GLM来建模这类数据，我们需要先使用指数族分布来表述多项式分布。我们使用变量 $\phi_1,\phi_2,...,\phi_k$ 分别表示 $k$ 个输出各自的概率，因为 $\sum_{i=1}^k\phi_i=1$ ，因此我们可以只适用 $k - 1$ 个参数来表示该多项式分布，其中 $p(y=i;\phi)=\phi_i,p(y=k;\phi)=1-\sum_{i=1}^{k-1}\phi_i$ 。
为了将多项式分布表示为指数族分布，我们会定义 $T(y)\in \mathbb{R}^{k-1}$ ，其中
$T(1)=\begin{bmatrix}1 \\ 0 \\ 0 \\ \vdots \\ 0\end{bmatrix},T(2)=\begin{bmatrix}0 \\ 1 \\ 0 \\ \vdots \\ 0\end{bmatrix},...,T(k-1)=\begin{bmatrix}0 \\ 0 \\ 0 \\ \vdots \\ 1\end{bmatrix},T(k)=\begin{bmatrix}0 \\ 0 \\ 0 \\ \vdots \\ 0\end{bmatrix}$
不像之前我们定义 $T (y) = y$ ，在这里的 $T (y)$ 也是一个向量，我们使用 $T(y))_i$ 代表该向量中的第i个元素。为了方便之后的介绍，我们定义一个新的符号 ${ . } 1\{.\}$ ，其中的条件为真则该值为1，否则该值为0，基于该定义我们可以得到 $T(y))_i=1\{y=i\}$ ，并且有 $E[(T(y))_i]=P(y=i)=\phi_i$ 。
接下来分析多项式分布为指数族分布的一个例子，即
$\begin{aligned} p(y;\phi)&=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1\{y=k\}} \\ &=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1-\sum_{i=1}^{k-1}1\{y=i\}} \\ &=\phi_1^{(T(y))_1}\phi_2^{(T(y))_2}...\phi_k^{1-\sum_{i=1}^{k-1}(T(y))_i} \\ &= exp((T(y))_1log(\phi_1)+(T(y))_2log(\phi_2)+...+(1-\sum_{i=1}^{k-1}(T(y))_i)log(\phi_k))\\ &=exp((T(y))_1log(\frac{\phi_1}{\phi_k})+(T(y))_2log(\frac{\phi_2}{\phi_k})+...+(T(y))_{k-1}log(\frac{\phi_{k-1}}{\phi_k})+log(\phi_k)) \\ &=b(y)exp(\eta T(y)-a(\eta)) \end{aligned}$
其中的
$\begin{aligned} \eta &= \begin{bmatrix}log(\frac{\phi_1}{\phi_k}) \\ log(\frac{\phi_2}{\phi_k}) \\ \vdots \\log(\frac{\phi_{k-1}}{\phi_k})\end{bmatrix} \\ a(\eta) &= -log(\eta_k) \\ b(y)&=1 \end{aligned}$
这样就顺利将多项式分布映射到指数族分布中，并且得到 $\eta_i=log(\frac{\phi_i}{\phi_k})$ ，因此 $e^{\eta_i}=\frac{\phi_i}{\phi_k},\phi{_i}=\phi_ke^{\eta_i},\phi_k\sum_{i=1}^ke^{\eta_i}=\sum_{i=1}^k\phi_i=1$ ，故
$\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}}$ ，这将 $\eta$ 映射 $\phi$ 的函数就是softmax函数。
为了完成建模，根据之前设置的假设3，我们有 $\eta_i=\theta_i^Tx$ ，其中 $\theta_1,\theta_2,...,\theta_k \in \mathbb{R}^{n+1}$ 为模型的参数，因为 $\eta_k=0$ ，所以我们将参数 $\theta_k$ 设置为0向量。给定 $x$ 后，我们的模型为
$p(y=i|x;\theta)=\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^ke^{\eta_j}}=\frac{e^{\theta_i^Tx}}{\sum_{j=1}^ke^{\theta_j^Tx}}$
这个应用于解决多分类问题的模型称为softmax模型，我们定义的hypothesis的输出为
$\begin{aligned} h_{\theta}(x)&=E[T(y)|x;\theta]\\& =\begin{bmatrix}\phi_1 \\ \phi_2 \\ \vdots \\ \phi_{k-1}\end{bmatrix} \\ &=\begin{bmatrix}\frac{exp(\theta_1^Tx)}{\sum_{i=1}^kexp(\theta_i^Tx)} \\ \frac{exp(\theta_2^Tx)}{\sum_{i=1}^kexp(\theta_i^Tx)} \\ \vdots \\ \frac{exp(\theta_{k-1}^Tx)}{\sum_{i=1}^kexp(\theta_i^Tx)}\end{bmatrix} \end{aligned}$
也就是说我们的模型会输出 $p(y=i|x;\theta)$ 的所有概率（ $i = 1, 2, . . ., k$ ）。
最后，讨论参数拟合，我们假设总共有 $m$ 个数据样本，即 ${(x^{(i)},y^{(i)});i=1,...,m\}$ ，其中的log似然函数为
$l(\theta)=\sum_{i=1}^m p(y^{(i)}|x;\theta)=\sum_{i=1}^mlog\sum_{l=1}^k(exp(\theta_l^Tx)/\sum_{j=1}^kexp(\theta_j^Tx))^{1\{y^{(i)}=l\}}$
我们可以使用梯度上升法或牛顿法进行最大似然估计求值。