逻辑斯蒂回归与最大熵模型

最新推荐文章于 2022-05-28 13:58:19 发布

OopsZero

最新推荐文章于 2022-05-28 13:58:19 发布

阅读量453

点赞数 1

分类专栏：统计学习方法文章标签：统计学习方法

本文链接：https://blog.csdn.net/qq_30708445/article/details/90182450

版权

统计学习方法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

逻辑斯蒂回归与最大熵模型都属于对数线性模型。

1、二项逻辑斯蒂回归模型

2、最大熵模型

最大熵原理认为，学习模型时，在所有可能的概率模型中，熵最大的模型就是最好的模型。

对于最大熵模型里面的特征的理解：

1、仅仅对输入抽取特征，即特征函数为 $\mathbf{f}(\mathbf{x})$

2、对输入和输出同时抽取特征，即特征函数为 $\mathbf{f}(\mathbf{x}, y)$

下面讲解一下如何把最大熵模型推导成logistic回归模型。

最大熵模型定义了在个给定输入变量x时，输出变量y的条件分布：

$P(y | \mathbf{x}, \boldsymbol\theta) = \frac{ \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x}, y) \right) }{ \sum_{\mathbf{y} \in \textit{Dom}(y)} { \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x}, y) \right) } }$

此处 $\textit{Dom}(y)$ 是y所有可能取值的集合

如果我们限定y为二元变量，即 $\textit{Dom}(y) = \{ y_0, y_1 \}$ ，那么久可以把最大熵模型转换成logistic回归模型。我们还需要定义特征函数为

$\bf{f} ({\bf{x}},y) = \left\{ \begin{array}{*{20}{c}} {{\bf{g}}({\bf{x}})}&{y = {y_1}}\\ {\bf{0}}&{y = {y_0}} \end{array} \right.$

即仅在 $y=y_1$ 时抽取x的特征。在 $y=y_0$ 时不抽取任何特征（直接返回为全0的特征向量）。

将这个特征函数代回最大熵模型，得到当 $y=y_1$ 时

$\begin{align} P(y_1 | \mathbf{x}) &= \frac{ \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right) }{ \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) + \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right) } & \text{æå¤§çµæ¨¡åå®ç¾©} \\ &= \frac{ \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{ \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) + \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) } & \text{ç¹å¾µå½æ¸ \textbf{f} çå®ç¾©} \\ &= \frac{ \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{ 1 + \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) } & e^0 = 1 \\ &= \frac{ 1 }{ \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) + 1 } & \text{åååæ¯åé¤ä»¥} \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) \\ &= \sigma\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) & \text{logistic å½æ¸å®ç¾©} \end{align}$

当 $y=y_0$ 时

$\begin{align} P(y_0 | \mathbf{x}) &= \frac{ \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) }{ \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) + \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right) } \\ &= \frac{ \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) }{ \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) + \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) } \\ &= \frac{ 1 }{ 1 + \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }\\ &= \frac{ \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{ \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) + 1 } \\ &= 1 - P(y_1 | \mathbf{x}) \end{align}$

我们发现，当类标签只有两个时，最大熵模型就是logistic模型。

表面上看，logistic回归模型里面的特征函数的确只考虑x不考虑y。然而通过上面的推导，我们发现其实g抽取的特征仅仅在 $y=y_1$ 时被用到。另外，logistic回归模型当然有特征的概念。

转自 https://www.zhihu.com/question/24094554

OopsZero

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归与最大熵模型都属于对数线性模型。1、二项逻辑斯蒂回归模型2、最大熵模型最大熵原理认为，学习模型时，在所有可能的概率模型中，熵最大的模型就是最好的模型。对于最大熵模型里面的特征的理解：1、仅仅对输入抽取特征，即特征函数为2、对输入和输出同时抽取特征，即特征函数为下面讲解一下如何把最大熵模型推导成logistic回归模型。最大熵模型定义了在个给定输入...
复制链接

扫一扫