广义线性模型推导线性回归模型，Logistic模型，多项Logistic模型

最新推荐文章于 2023-03-30 13:44:22 发布

muyuu

最新推荐文章于 2023-03-30 13:44:22 发布

阅读量897

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/muyuu/article/details/122191685

版权

广义线性模型线性回归 Logistic回归多项Logistic模型指数族分布

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

广义线性模型推导线性回归模型

对于线性模型，因变量 $y$ 服从高斯分布： $\mathcal{N}(\mu,\sigma^2)$ ，将高斯分布改写成指数族分布：
$\begin{aligned} P(y;\mu,\sigma^2) &= \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(y-\mu)^2}{2\sigma^2})\\ & = exp(-\frac{1}{2\sigma^2} y^2 + \frac{\mu}{\sigma^2} y - \frac{\mu^2}{2\sigma^2} + log\frac{1}{\sqrt{2\pi}\sigma})\\ & = exp(\left[ \begin{matrix} -\frac{1}{2\sigma^2} & \frac{\mu}{\sigma^2} \end{matrix} \right] \left[ \begin{matrix} y^2 \\ y \\ \end{matrix} \right] - \frac{\mu^2}{2\sigma^2} - \frac{1}{2}log(2\pi\sigma^2)) \end{aligned}$
因此：

$b (y) = 1$
$\left[ \begin{matrix} y^2 \\ y \\ \end{matrix} \right]$
$\eta = \left[ \begin{matrix} \eta_1 & \eta_2 \end{matrix} \right] = \left[ \begin{matrix} -\frac{1}{2\sigma^2} & \frac{\mu}{\sigma^2} \end{matrix} \right]$
$a(\eta) = \frac{\mu^2}{2\sigma^2} + \frac{1}{2}log(2\pi\sigma^2)$

那么模型的目标就是求解
$f(x;\theta) = E[T(y)|x] = E[y|x] \overset{\text{高斯分布}}{=} \mu = \sigma^2 \eta_2 \overset{\text{条件3}}{=} \sigma^2*\zeta^Tx$

令 $\theta = \sigma^2*\zeta$ ，就得到了线性模型： $f(x;\theta) = \theta^T x$

广义线性模型推导Logistic模型

作为二分类模型，Logistic回归实际上建模的是Bernoulli分布，也就是说，在已知样本 $x$ 的情况下，标签 $y$ 满足分布：
$P(y;\phi) = \phi^y(1-\phi)^{1-y}, \quad y \in \{0,1\}$
其中 $\phi = P(y=1|x;\phi)$

下面我们将伯努利分布转化成指数族分布的形式：
$\begin{aligned} P(y;\phi) &= \phi^y(1-\phi)^{1-y}, \quad y \in \{0,1\}\\ &= exp(y\text{log}\phi + (1-y)log(1-\phi))\\ &= exp(y\text{log}\frac{\phi}{1-\phi} + log(1-\phi)) \end{aligned}$

因此

$b (y) = 1$
$T (y) = y$
$\eta = \frac{\phi}{1-\phi} \Rightarrow \phi = \frac{1}{1+e^{-\eta}}$
$a(\eta) = - log(1-\phi) = log(1+e^{\eta})$

那么模型的目标就是求解
$f(x;\theta) = E[T(y)|x] = E[y|x] \overset{\text{Bernoulli分布}}{=} 0\cdot P(y=0|x;\phi) + 1\cdot P(y=1|x;\phi) = \phi = \frac{1}{1+e^{-\eta}} \overset{\text{条件3}}{=} \frac{1}{1+e^{-\zeta^T x}}$

令 $\theta = - \zeta$ ，就得到了Logistic模型： $f(x;\theta) = \frac{1}{1+e^{\theta^T x}}$

广义线性模型推导多项Logistic模型

多项Logistic模型用于解决多分类问题，它实际建模的是Multinoulli分布，在已知样本 $x$ 的情况下，标签 $y$ 满足分布：
$P(y;\Phi) = \prod_{i=1}^C \phi_i^{y_i}$
其中 $\phi_i = P(y=y_i|x;\Phi)$ ，由于 $\phi_{C} = \sum_{i=1}^C \phi_i$ ，因此实际只需知道 $\phi_1,\cdots, \phi_{C-1}$

下面我们将Multinoulli分布转化成指数族分布的形式，为了方便记录，我们将标签 $y$ 用one-hot向量的方式表示：
$y_1 = \left[ \begin{matrix} 1 \\ 0\\ \cdots \\ 0 \end{matrix} \right]，y_2 = \left[ \begin{matrix} 0 \\ 1\\ \cdots \\ 0 \end{matrix} \right]，\cdots，y_{C-1} = \left[ \begin{matrix} 0 \\ 0\\ \cdots \\ 1 \end{matrix} \right]，y_C = \left[ \begin{matrix} 0 \\ 0\\ \cdots \\ 0 \end{matrix} \right]$

那么有：
$\begin{aligned} P(y;\phi) &= \phi_1^{y_1} \cdots \phi_C^{y_C}\\ &= \phi_1^{y_1} \cdots \phi_{C-1}^{y_{C-1}}\cdot \phi_C^{{1-\sum_{i=1}^{C-1} y_i}}\\ &= exp(y_1\text{log}\phi_1 + \cdots + y_{C-1}\text{log}\phi_{C-1} + (1-\sum_{i=1}^{C-1} y_i)\text{log}\phi_C)\\ &= exp(y_1\text{log}\frac{\phi_1}{\phi_C} + \cdots + y_{C-1}\text{log}\frac{\phi_{C-1}}{\phi_C} + \text{log}\phi_C) \end{aligned}$

因此

$b (y) = 1$
$T (y) = y$
$\eta = \left[ \begin{matrix} \text{log}\frac{\phi_1}{\phi_C} \\ \text{log}\frac{\phi_2}{\phi_C} \\ \cdots \\ \text{log}\frac{\phi_{C-1}}{\phi_C} \end{matrix} \right]$
$a(\eta) = - \text{log}\phi_C$

由于 $\eta_i = \text{log}\frac{\phi_i}{\phi_C}，\Rightarrow$

$\phi_i = \phi_C e^{\eta_i} \Rightarrow 1 = \sum_{i=1}^C \phi_i = \phi_C \sum_{i=1}^C e^{\eta_i} \Rightarrow \phi_C = \frac{1}{\sum_{i=1}^C e^{\eta_i}} \Rightarrow \phi_i = \phi_C e^{\eta_i} = \frac{e^{\eta_i}}{\sum_{i=1}^C e^{\eta_i}}$

那么模型的目标就是求解:
$f(x;\theta) = E[T(y)|x] = E[y|x] \overset{\text{Multinoulli分布}}{=} \left[ \begin{matrix} \phi_1 \\ \phi_2 \\ \cdots \\ \phi_{C-1} \end{matrix} \right] = \left[ \begin{matrix} \frac{e^{\eta_1}}{\sum_{i=1}^C e^{\eta_i}} \\ \frac{e^{\eta_2}}{\sum_{i=1}^C e^{\eta_i}} \\ \cdots \\ \frac{e^{\eta_{C-1}}}{\sum_{i=1}^C e^{\eta_i}} \end{matrix} \right] \overset{\text{条件3}}{=} \left[ \begin{matrix} \frac{e^{\zeta_1^T x}}{\sum_{i=1}^C e^{\zeta_i^T x}} \\ \frac{e^{\zeta_2^T x}}{\sum_{i=1}^C e^{\zeta_i^T x}} \\ \cdots \\ \frac{e^{\zeta_{C-1}^T x}}{\sum_{i=1}^C e^{\zeta_i^T x}} \end{matrix} \right]$