机器学习笔记——广义线性模型(Generalized Linear Models, GLM)

最新推荐文章于 2024-06-20 09:41:02 发布

huxycn

最新推荐文章于 2024-06-20 09:41:02 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u012959784/article/details/76735303

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文主要参考 Andrew NG 的 CSS229 机器学习课程的 Lecture notes 1 的 Part III 部分，简单介绍广义线性模型的基本概念，以及如何从广义线性模型出发，由高斯分布、伯努利分布和多项分布，分别得到我们熟悉的线性回归、logistic回归和softmax回归模型。

1 指数族分布（The Exponential Family）

指数族分布指的是一类分布，它们的概率密度函数都可以写成如下形式：

p (y; η) = b (y) e x p (η T T (y) - a (η))

$p(y;\eta) = b(y)exp(\eta^TT(y)-a(\eta))$

式子中各符号解释如下：

$\eta$ 称为自然参数（natural parameter）。对于线性回归和logistic回归， $\eta$ 是一个实数，且假设 $\eta = w\cdot x$ ；对于softmax回归， $\eta$ 是一个向量，且假设 $\eta^{(i)} = w_i\cdot x$ ，后面会详细介绍。
$T(y)$ 是充分统计量（sufficient statistic），对于线性回归、logistic回归，有 $T(y)=y$ ；对于有k个类的softmax回归， $T(y)=(1\{y=1\}, 1\{y=2\}, ..., 1\{y=k-1\})^T$ 。
$a(\eta)$ 是一个对数配分函数（log partition function）， $e^{-a(\eta)}$ 在式子中起到归一化的作用，保证概率密度函数在随机变量 $y$ 上的积分为 $1$ ，在后面的推导中，可以得到 $a(\eta)$ 由 $w$ 和 $x$ 表示的函数。

一旦 $T$ 、 $a$ 、 $b$ 确定，就可以确定一种分布， $\eta$ 为参数。

高斯分布、伯努利分布\和多项分布都属于指数族分布，下面介绍如何将它们写成指数族分布的形式，并确定其中记号的对应关系。

1.1 高斯分布

在线性回归为何选择平方损失函数的概率论解释中，就介绍过线性回归与高斯分布的关系，且推导过程中也发现线性回归最优解的求解与高斯分布的方差 $\sigma^2$ 无关，故此处简便起见，不妨设 $\sigma^2=1$ 。所以高斯分布 $N(\mu,1)$ 的概率密度函数可以简写为如下：

p (y; μ) = 1 2 π ‾ ‾ ‾ \sqrt e x p (- 1 2 (y - μ) 2) = 1 2 π ‾ ‾ ‾ \sqrt e x p (- 1 2 y 2) e x p (μ y - 1 2 μ 2)

$\begin{align*} p(y;\mu) &= \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-\mu)^2) \\ &= \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2)exp(\mu y-\frac{1}{2}\mu^2) \end{align*}$
由此可得，

b (y) η T (y) a (η) = 1 2 π ‾ ‾ ‾ \sqrt e x p (- y 2 2) = μ = y = μ 2 2 = η 2 2

$\begin{align*} b(y) &= \frac{1}{\sqrt{2\pi}}exp(-\frac{y^2}{2}) \\ \eta &= \mu \\ T(y) &= y \\ a(\eta) &= \frac{\mu^2}{2} = \frac{\eta^2}{2} \\ \end{align*}$

1.2 伯努利分布

伯努利分布 $B(\phi)$ 的分布列为：

p (y; ϕ) = ϕ y (1 - ϕ) 1 - y = e x p (y l o g ϕ + (1 - y) l o g (1 - ϕ)) = e x p (l o g (ϕ 1 - ϕ) y + l o g (1 - ϕ))

$\begin{align*} p(y;\phi) &= \phi^y(1-\phi)^{1-y} \\ &= exp(ylog\phi+(1-y)log(1-\phi)) \\ &= exp(log(\frac{\phi}{1-\phi})y+log(1-\phi)) \end{align*}$
由此可得，

b (y) η T (y) a (η) = 1 = l o g (ϕ 1 - ϕ) \Rightarrow ϕ = 1 1 + e - η = y = - l o g (1 - ϕ) = l o g (1 + e η)

$\begin{align*} b(y) &= 1 \\ \eta &= log(\frac{\phi}{1-\phi}) \Rightarrow \phi = \frac{1}{1+e^{-\eta}}\\ T(y) &= y \\ a(\eta) &= -log(1-\phi) = log(1+e^\eta) \\ \end{align*}$

1.3 多项分布

搜了一下多项分布的定义，多项分布是二项分布的推广，二点分布（伯努利分布）是二项分布 $n=1$ 的特例，Andrew NG 这里说的多项分布应该指的是 $n=1$ 的多项分布，姑且称之为多点分布（单次随机试验有 $k$ 种可能结果），与二点分布（单次试验只有两种结果）对应；由二点分布可推出logistic回归，由多点分布可推出softmax回归，而softmax回归也被认为是logistic回归的推广，也称为多项logistic回归。所以这里多项分布的分布列为：

p (y; ϕ) = (ϕ (1)) 1 {y = 1} (ϕ (2)) 1 {y = 2} . . . (ϕ (k)) 1 {y = k} = (ϕ (1)) 1 {y = 1} (ϕ (2)) 1 {y = 2} . . . (ϕ (k)) 1 - \sum k - 1 i = 1 1 {y = i} = (ϕ (1)) T (y) (1) (ϕ (2)) T (y) (2) . . . (ϕ (k)) 1 - \sum k - 1 i = 1 T (y) (i) = e x p ⟮ T (y) (1) l o g (ϕ (1)) + T (y) (2) l o g (ϕ (2)) + . . . + (1 - \sum i = 1 k - 1 T (y) (i)) l o g (ϕ (k)) ⟯ = e x p ⟮ T (y) (1) l o g ϕ ( 1 ) ϕ ( k ) + T (y) (2) l o g ϕ ( 2 ) ϕ ( k ) + . . . + T (y) (k - 1) l o g ϕ ( k - 1 ) ϕ ( k ) + l o g ϕ (k) ⟯ = e x p ⟮ η T T (y) - a (η) ⟯

$\begin{align*} p(y;\phi) &= (\phi^{(1)})^{1\{y=1\}}(\phi^{(2)})^{1\{y=2\}}...(\phi^{(k)})^{1\{y=k\}} \\ &= (\phi^{(1)})^{1\{y=1\}}(\phi^{(2)})^{1\{y=2\}}...(\phi^{(k)})^{1-\sum_{i=1}^{k-1}1\{y=i\}} \\ &= (\phi^{(1)})^{T(y)^{(1)}}(\phi^{(2)})^{T(y)^{(2)}}...(\phi^{(k)})^{1-\sum_{i=1}^{k-1}T(y)^{(i)}} \\ &= exp\lgroup T(y)^{(1)}log(\phi^{(1)})+T(y)^{(2)}log(\phi^{(2)})+...+({1-\sum_{i=1}^{k-1}T(y)^{(i)}})log(\phi^{(k)})\rgroup \\ &= exp\lgroup T(y)^{(1)}log\frac{\phi^{(1)}}{\phi^{(k)}} + T(y)^{(2)}log\frac{\phi^{(2)}}{\phi^{(k)}} + ... + T(y)^{(k-1)}log\frac{\phi^{(k-1)}}{\phi^{(k)}} + log\phi^{(k)} \rgroup \\ &= exp\lgroup \eta^TT(y)-a(\eta) \rgroup \end{align*}$
其中，

b (y) η T (y) a (η) = 1 = (l o g ϕ ( 1 ) ϕ ( k ), l o g ϕ ( 2 ) ϕ ( k ), . . ., l o g ϕ ( k - 1 ) ϕ ( k )) T \Rightarrow ϕ (i) = e η ( i ) \sum k - 1 i = 1 e η ( i ) + 1 = (1 {y = 1}, 1 {y = 2}, . . ., 1 {y = k - 1}) T = - l o g ϕ (k) = l o g (\sum i = 1 k - 1 e η (i) + 1)

$\begin{align*} b(y) &= 1 \\ \eta &= (log\frac{\phi^{(1)}}{\phi^{(k)}}, log\frac{\phi^{(2)}}{\phi^{(k)}}, ... , log\frac{\phi^{(k-1)}}{\phi^{(k)}})^T \Rightarrow \phi^{(i)}=\frac{e^{\eta^{(i)}}}{\sum_{i=1}^{k-1}e^{\eta^{(i)}}+1}\\ T(y) &= (1\{y=1\}, 1\{y=2\}, ... , 1\{y=k-1\})^T \\ a(\eta) &= -log\phi^{(k)} = log(\sum_{i=1}^{k-1}e^{\eta^{(i)}}+1) \end{align*}$

2 构造广义线性模型

一般地，考虑一个分类或者回归问题，我们希望将随机变量 $y$ 的预测值表示为输入 $x$ 的函数。对于给定 $x$ 下 $y$ 的条件分布，我们作如下3条假设：
1. $y|x;w \sim ExpFamily(\eta)$ ，即当给定 $x$ 和 $w$ 时，随机变量 $y$ 的分布服从某个指数族分布。
2. 已知一个 $x$ ，我们的目标是预测给定 $x$ 下 $T(y)$ 的条件期望，即 hypothesis 为 $h(x)=E[T(y)|x]$ 。
3. 自然参数 $\eta$ 是输入 $x$ 的线性函数，即 $\eta = w\cdot x$ ，或者当 $\eta$ 是一个向量时， $\eta^{(i)}=w_i\cdot x$ 。

2.1 线性回归

目标变量 $y\in R$ ，假设 $y|x;w \sim N(\mu, \sigma^2)$ ，有如下推导：

h (x) = E [y | x; w] = μ = η = w \cdot x

$\begin{align*} h(x) &= E[y|x;w] \\ &= \mu \\ & = \eta \\ &= w\cdot x \end{align*}$
其中，第一行等式由假设2得出，第二行等式由高斯分布的期望可得，第三行等式由1.1中的推导可得，第四行等式由假设3得出。

2.2 logistic回归

目标变量 $y\in \{0, 1\}$ ，假设 $y|x;w \sim B(\phi)$ ，有如下推导：

h (x) = E [y | x; w] = ϕ = 1 1 + e - η = 1 1 + e - w \cdot x

$\begin{align*} h(x) &= E[y|x;w] \\ &= \phi \\ &= \frac{1}{1+e^{-\eta}} \\ &= \frac{1}{1+e^{-w\cdot x}} \end{align*}$
其中，第一行等式由假设2得出，第二行等式由伯努利的期望可得，第三行等式有1.2中的推导可得，第四行等式由假设3得出。

2.3 softmax回归

目标变量 $y\in \{1,2,...,k\}$ ，假设 $y|x;w$ 服从多项分布，用参数 $\phi^{(1)}, \phi^{(2)}, ..., \phi^{(k)}$ 分别表示在给定 $x$ 下输出 $y=1,2,...,k$ 的条件概率， $\sum_{i=1}^{k}\phi^{(i)}=1$ ，有如下推导：

h (x) = E [T (y) | x; w] = (ϕ (1), ϕ (2), . . ., ϕ (k - 1)) T = (e x p ( w 1 \cdot x ) \sum k - 1 j = 1 e x p ( w j \cdot x ) + 1, e x p ( w 2 \cdot x ) \sum k - 1 j = 1 e x p ( w j \cdot x ) + 1, . . ., e x p ( w k - 1 \cdot x ) \sum k - 1 j = 1 e x p ( w j \cdot x ) + 1) T

$\begin{align*} h(x) &= E[T(y)|x;w] \\ &= (\phi^{(1)}, \phi{(2)}, ... ,\phi{(k-1)})^T \\ &= (\frac{exp(w_1 \cdot x)}{\sum_{j=1}^{k-1}exp(w_j\cdot x)+1}, \frac{exp(w_2 \cdot x)}{\sum_{j=1}^{k-1}exp(w_j\cdot x)+1}, ..., \frac{exp(w_{k-1} \cdot x)}{\sum_{j=1}^{k-1}exp(w_j\cdot x)+1})^T \end{align*}$
其中，第一行等式由假设2得出，第二行等式由多项分布的期望可得，第三行等式由1.3中推导以及假设3得出。softmax回归也也可以用极大似然估计来估计参数，用梯度下降或者牛顿法求解最优解。

huxycn

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记——广义线性模型(Generalized Linear Models, GLM)

本文主要参考 Andrew NG 的 CSS229 机器学习课程的 Lecture notes 1 的 Part III 部分，简单介绍广义线性模型的基本概念，以及如何从广义线性模型出发，由高斯分布、伯努利分布和多项分布，分别得到我们熟悉的线性回归、logistic回归和softmax回归模型。
复制链接

扫一扫

专栏目录