Logistic模型、最大熵模型与softmax模型

最新推荐文章于 2024-01-31 16:58:53 发布

EntropyPlus

最新推荐文章于 2024-01-31 16:58:53 发布

阅读量658

点赞数 2

文章标签：分类

本文链接：https://blog.csdn.net/u012759262/article/details/101724484

版权

logistics与最大熵思维导图.png

0 前言

很久以前推了一遍公式，但是在后面看到RNN预测语言模型使用softmax的时候仍然是一脸懵，所以现在重头整理了一下，发现有不一样的理解。

1. 概况

这个模型主要是应用于多分类的问题，传说二分类的利器——logistics模型其实是最大熵模型的一种特殊情况。在这里为了直观，首先给出logistics模型和最大熵模型的使用方法。

1.1 数据集的形式

数据集 $T=\{(\boldsymbol{x_1},y_1),...,(\boldsymbol{x_n},y_N)\}$ ， $\boldsymbol{x_i}$ 是一个 $m$ 维的向量，代表样本空间中的第 $i$ 个值。

1.2 logistics模型

1.2.1 二分类的logistics模型

首先，logistics模型在分类任务中，主要应用于二分类，假设离散型变量 $Y$ 分类编号为{1, 0}，则这个模型长这个B样：
$\begin{aligned} P(y_i=1|\boldsymbol{x_i})=\frac{\exp(\boldsymbol{w}·\boldsymbol{x_i})} {1+\exp(\boldsymbol{w}·\boldsymbol{x_i})}\\ P(y_i=-1|\boldsymbol{x_i})=\frac{1} {1+\exp(\boldsymbol{w}·\boldsymbol{x_i})}\\ \tag{1.1} \end{aligned}$

1.2.2 多分类的logistics模型

假设离散型变量 $Y$ 分类编号为{1, 2,… ,K}，设 $Y_i=k$ 代表第 $i$ 个样本的分类结果为 $k$ ，那么：
$\begin{aligned} P(Y_i=k|\boldsymbol{x_i})=&\frac{\exp(\boldsymbol{w_k}·\boldsymbol{x_i})}{1+\sum_{k=1}^{K-1}\exp(\boldsymbol{w_k}·\boldsymbol{x_i})},\ k=1,2,3...,K-1\\ P(Y_i=K|\boldsymbol{x_i})=&\frac{1}{1+\sum_{k=1}^{K-1}\exp(\boldsymbol{w_k}·\boldsymbol{x_i})} \tag{1.2} \end{aligned}$
上式中：

$Y_i$ 代表第 $i$ 个样本的标签值；
$\boldsymbol{x_i}$ 代表第 $i$ 个样本的特征值，是一个 $m$ 维的向量；
$k$ 代表第 $k$ 个类别；
$\boldsymbol{w_k}$ 代表第 $k$ 个类别对应的参数，是一个 $m$ 维的向量；
表示第 $i$ 个样本属于第 $k$ 类的概率。

1.3 softmax模型

$\begin{aligned} P(y_i=k|\boldsymbol{x_i})=\frac{\exp(\boldsymbol{w_k}·\boldsymbol{x_i})} {\sum_{k=1}^{K}\exp(\boldsymbol{w_k}·\boldsymbol{x_i})}, k=1,2,3...,K; \tag{1.3} \end{aligned}$
上式中：

$Y_i$ 代表第 $i$ 个样本的标签值；
$\boldsymbol{x_i}$ 代表第 $i$ 个样本的特征值，是一个 $m$ 维的向量；
$k$ 代表第 $k$ 个类别；
$\boldsymbol{w_k}$ 代表第 $k$ 个类别对应的参数，是一个 $m$ 维的向量；

表示第 $i$ 个样本属于第 $k$ 类的概率。

1.4 最大熵模型

最大熵模型主要应用于二分类或者多分类首先这个模型长这个B样：
$\begin{aligned} P(y=k|\boldsymbol{x})=\frac{\exp({w_i}·f_i(\boldsymbol{x},y))} {\sum_y \exp(\sum_{i=1}^{n}{w_i}·f_i(\boldsymbol{x},y))}, i=1,2,3...,n \tag{1.4} \end{aligned}$
在上式中：

$f (x)$ 是一个特征函数：

“如果 $x, y$ 满足某种条件”，这句话一开始让我摸不着头脑，后来才明白，可以把它看成， $x, y$ 这种组合若出现在样本空间中，则为1，否则为0。它们的个数为 $n$ 个（样本的个数）。

举个栗子：当体温小于38，血压小于100，血糖小于30时，总是得小病。这就是一个综合后的先验知识。
我们可以据此定义一个特征函数：f(x,y) = 1 当且仅当 x ={体温小于38，血压小于100，血糖小于30}，y=小病

$w_i$ 是特征的权值。

2. 最大熵模型的推导

想要弄清楚最大熵模型、logistics模型以及softmax模型之间的关系，我们需要先看看他们各自的原理。首先从最大熵模型入手。

2.1 最大熵原理

学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常通过约束条件来确定概率模型的集合。

首先要明确两个问题：

熵最大有什么意义吗？
我们之前提过信息熵表示不确定程度，所以熵最大，也就是系统的不确定程度最大，系统中没有任何个人的主观假设。
最大熵是什么？
当你要猜一个概率分布时，如果你对这个分布一无所知，那就猜熵最大的均匀分布，如果你对这个分布知道一些情况，那么，就猜满足这些情况的熵最大的分布。

下面两个网址是描述的比较清楚的：

图解最大熵原理（The Maximum Entropy Principle）
决策树-脚注：为什么在等概率的情况下，熵能达到最大值？

2.2 理论推导

2.2.1 数据准备

数据集 $T=\{(\boldsymbol{x_1},y_1),...,(\boldsymbol{x_n},y_N)\}$ ， $\boldsymbol{x_i}$ 是一个 $m$ 维的向量，代表样本空间中的第 $i$ 个值，类标签为 $y=\{1, 2,..,k\}$ 。

那么，根据样本空间中的 $n$ 条数据，可以计算 $x$ 的概率分布以及 $\boldsymbol{x},y$ 的联合概率分布，分别记为 $\widetilde{P}(\boldsymbol{x})$ 和 $\widetilde{P}(\boldsymbol{x},y)$ （因为是根据样本数据求出来的，并不能代表真实世界中的分布，所以上面加了波浪线）。

2.2.2 理论依据

2.2.2.1 目标

因为熵最大的模型是最好的模型，我们的任务就是找到这样一个最好的模型。但是，俗话说，最适合自己的才是最好的，所以，找最大熵就变成了找在给定样本空间条件下的最大熵模型——条件熵，根据条件熵的定义，条件熵为：（为什么请看这里：《决策树【python实现】》— 条件熵）
$-\sum_{x,y} P(x,y)logP(y|x)$
根据贝叶斯公式，又可以写成
$-\sum_{x,y} \widetilde{P}(x)P(y|x)logP(y|x) \tag{2.1}$

这个时候，我们只要找到最大的 $P (y ∣ x)$ 就好了。

2.2.2.1 条件

公式(2.1)中条件概率的意义是：根据特征 $\boldsymbol{x}$ 计算出属于 $y$ 的概率能够最大化， $y$ 的编号为 $k$ 。也就是说，我们的目标是求 $P(y_i=k|\boldsymbol{x_i})$ ，简写为 $P(y|\boldsymbol{x})$ 。

但是，仅仅一个样本上表现出良好的性能还不够，要在整个空间上都表现良好。根据我们手上的筹码：样本数据，再借助之前提到的特征函数，我们可以很好的量化这个评价指标，于是有就有了下面两个期望的计算公式：

特征函数 $f(\boldsymbol{x},y)$ 关于 $\widetilde{P}(\boldsymbol{x},y)$ 的期望值为：
$E_{\widetilde{P}}(f)=\sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x},y)f(\boldsymbol{x},y) \tag{2.2}$
由于我们的目标是求 $P(y|\boldsymbol{x})$ ，那么，借助贝叶斯公式，我们可以得出第二个期望的计算公式：
$E_{P}(f)=\sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x})P(y|\boldsymbol{x})f(\boldsymbol{x},y) \tag{2.3}$

如果，在样本空间中，这俩公式能相等的话，就十分完美了，于是有：
$\sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x},y)f(\boldsymbol{x},y)=\sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x})P(y|\boldsymbol{x})f(\boldsymbol{x},y) \tag{2.4}$

根据 $f(\boldsymbol{x},y)$ 的定义可知，有多少种特征和类标签前的组合，就有多少个**约束条件。那么，把样本空间中的所有约束条件都算上，

那么，也就是说，我们要在这个空间中找一个没有任何主观假设的模型，即条件概率的最大熵。

2.3 具体化最大熵模型目标函数

说实话，上面的式子，很抽象，需要转化一下。

2.3.1 把求max的问题转化成求min的问题。

$\underset{p \in C}{\max}\ H(P) = -\sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x})P(y|\boldsymbol{x})logP(y|\boldsymbol{x})$
等价于求
$\underset{p \in C}{\min}\ -H(P) = \sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x})P(y|\boldsymbol{x})logP(y|\boldsymbol{x})\tag{2.5}$
引入拉格朗日算子 $w_1,w_2,...,w_n$ ，可得到方程：
$\begin{aligned} L(P, w) &= -H(P) + w_0(1-\sum_{y}P(y|\boldsymbol{x})) + \sum_{i=1}^{n}[w_i (E_P(f_i(\boldsymbol{x},y))-E_{ \widetilde{P}}(f_i(\boldsymbol{x},y)))] \tag{2.6}\\ \end{aligned}$
$\begin{aligned} &= \sum_{\boldsymbol{x},y} \widetilde{P}(\boldsymbol{x})P(y|\boldsymbol{x})logP(y|\boldsymbol{x})+ \\&w_0[1-\sum_{y}P(y|\boldsymbol{x})]+ \\&\sum_{i=1}^{n} \{ w_i [\sum_{\boldsymbol{x},y }P(\boldsymbol{x},y)f_i(\boldsymbol{x},y) - \sum_{\boldsymbol{x},y }\widetilde{P}(\boldsymbol{x})P(y|\boldsymbol{x})f_i(\boldsymbol{x},y)] \}\tag{2.7} \end{aligned}$

2.3.2 转化为对偶问题

由最优化问题可知，我们的目标是求：
$\begin{aligned} \underset{p \in C}{\min}\ \underset{w}{\max}\ L(P,w)\tag{2.8-1} \end{aligned}$
可转化为：
$\begin{aligned} \underset{w}{\max}\ \underset{p \in C}{\min}\ L(P,w)\tag{2.8-2} \end{aligned}$

基本思想是：先把 $\underset{p \in C}{\min}\ L(P,w)$ 的解用 $w$ 表示出来，然后再求 $w$ 的解即可。

2.3.2.1 第一步

先求 $\underset{p \in C}{\min}\ L(P,w)$ ：

当 $L (P, w)$ 满足约束条件时，令
$\psi(w) = \underset{p \in C}{\min}\ L(P,w) = L(P_w,w) \tag{2.9}$
设 $\psi(w)$ 的解为 $P_w(y|x)$ ，求 $L (P, w)$ 对 $P (y ∣ x)$ 的偏导数，并令其为0：
$\begin{aligned} \frac{\partial {L(P, w)}}{\partial{p(y|x)}} &= \sum_{x,y} \{ \widetilde{P}(x)logP(y|x) + \widetilde{P}(x)\} - \sum_{y}w_0 + \sum_{i=1}^{n} \{ w_i [0 - \sum_{x,y }\widetilde{P}(x)f_i(x,y) ] \} \\ \end{aligned}$
因为： $\sum_{x}\widetilde{P}(x)=1$ ，所以有：
$\sum_{x,y}\widetilde{P}(x)w_0 = \sum_{y}w_0$
所以有：
$\begin{aligned} \frac{\partial {L(P, w)}}{\partial{p(y|x)}} &= \sum_{x,y}\widetilde{P}(x) ( logP(y|x) + 1) - \sum_{x,y}\widetilde{P}(x)w_0 - \sum_{i=1}^{n} \{ w_i \sum_{x,y }\widetilde{P}(x)f_i(x,y) \} \\ &= \sum_{x,y}\widetilde{P}(x) ( logP(y|x) + 1) - \sum_{x,y}\widetilde{P}(x)w_0 - \sum_{i=1}^{n} \{ w_i \sum_{x,y }\widetilde{P}(x)f_i(x,y) \} \\ &= \sum_{x,y}\widetilde{P}(x) \{( logP(y|x) + 1) - w_0 - \sum_{i=1}^{n} w_i f_i(x,y) \}\tag{2.10} \end{aligned}$
令式(2.10)为 $0$ ，则有：
$\begin{aligned} 0 =& \sum_{x,y}\widetilde{P}(x) \{( logP(y|x) + 1) - w_0 - \sum_{i=1}^{n} w_i f_i(x,y)\} \\ p(y|x) =& \exp ( w_0 + \sum_{i=1}^{n} w_i f_i(x,y)-1 ) \\ p(y|x) =& \frac{\exp (\sum_{i=1}^{n} w_i f_i(x,y))} {\exp(1-w_0)} \tag{2.11} \end{aligned}$
又因 $\sum_{y}p(y|x)=1$ ，代入公式(2.11)，则有：
$\begin{aligned} 1 =& \sum_{y} \frac{\exp(\sum_{i=1}^{n} w_i f_i(x,y))} {\exp (1-w_0) } \\ \exp(1-w_0) =& \sum_{y} \exp (\sum_{i=1}^{n} w_i f_i(x,y)) \tag{2.12} \end{aligned}$
令(2.12)为 $Z_w(x)$ ，代入(2.11)，结果记为 $p_w(y|x)$ ，则有
$\begin{aligned} p_w(y|x) =& \frac{\exp (\sum_{i=1}^{n} w_i f_i(x,y))} {\sum_{y} \exp (\sum_{i=1}^{n} w_i f_i(x,y))} \tag{2.13} \end{aligned}$
因此，优化目标 $\psi(x)$ 的解为公式(2.13)，其中 $Z_w(x)$ 被称为规范化因子。

2.3.2.2 第二步

再使(2.13)极大化，求 $w$ 。
即求
$\begin{aligned} \underset{w}{\max}\ \psi(w) \tag{2.14} \end{aligned}$

由于(2.13)式并没有一个显式的解析解，因此需要借助于数值的方法。由于是一个光滑的凸函数，所以可以求解的方法很多。可以使用的方法有：

通用迭代尺度法（GIS: Generalized Iterative Scaling）。
改进的迭代尺度法（IIS: Improved Iterative Scaling）。
梯度下降算法
拟牛顿法（牛顿法）

其中，前两个方法是专门为最大熵模型而设计的，后两种方法为通用的算法。

其实到这里，最大熵模型的理论推导就算结束了。

2.4 最大熵模型的似然估计

在公式(2.14)中，因为 $p_w(y|x)$ 是在 $\sum_y p(y|x)=1$ 的条件下得出，故而有：
$\begin{aligned} L(P_w, w) &= -H(P_w) + \sum_{i=1}^{n} [w_i (E_{\widetilde{P}} (f_i(x,y)) - E_{P_w}(f_i(x,y)))] \\ &=\sum_{x,y} \widetilde{P}(x) P_w(y|x) log P_w(y|x) + \sum_{i=1}^{n} w_i (E_{\widetilde{P}} (f_i(x,y)) - \sum_{x,y}\widetilde{P}(x)·P_w(y|x)·f_i(x,y)) \\ &= \sum_{i=1}^{n}w_i ·E_{\widetilde{P}}(f_i(x,y)) + \sum_{x,y} \widetilde{P}(x) P_w(y|x)·(log P_w(y|x) - \sum_{i=1}^{n} w_if_i(x,y)) \tag{2.15} \end{aligned}$

将
$\begin{aligned} P_w(y|x) =& \frac{exp (\sum_{i=1}^{n} w_i f_i(x,y))} {\sum_{y} exp (\sum_{i=1}^{n} w_i f_i(x,y))}\tag{2.13} \end{aligned}$
代入公式(2.15)，得
$\begin{aligned} L(P_w, w) &= \sum_{i=1}^{n}w_i ·E_{\widetilde{P}}(f_i(x,y)) + \sum_{x,y} \widetilde{P}(x) P_w(y|x)·(\sum_{i=1}^{n} w_i f_i(x,y)-logP_w(x) - \sum_{i=1}^{n} w_if_i(x,y)) \\ &= \sum_{i=1}^{n}w_i ·E_{\widetilde{P}}(f_i(x,y)) - logZ_w(x) · \sum_{x,y} \widetilde{P}(x) P_w(y|x)\\ &=\sum_{i=1}^{n}w_i ·E_{\widetilde{P}}(f_i(x,y)) - logZ_w(x) ·( \sum_{x}\sum_{y} \widetilde{P}(x) P_w(y|x)) \\ &=\sum_{i=1}^{n}w_i ·E_{\widetilde{P}}(f_i(x,y)) - logZ_w(x) ·( \sum_{x}\widetilde{P}(x))\\ &=\sum_{i=1}^{n}w_i ·\sum_{x,y} \widetilde{P}(x,y)f_i(x,y) - logZ_w(x) ·( \sum_{x}\widetilde{P}(x))\tag{2.17} \end{aligned}$
又因为最大熵模型的似然估计有：
$\begin{aligned} L_{\widetilde{P}}(P_w) &= \sum_{x,y} \widetilde{P}(x,y)logP(y|x) \\ &=\sum_{x,y} \widetilde{P}(x,y)·(\sum_{i=1}^{n}w_i f_i(x,y)-logZ_w(x)) \\ &= \sum_{x,y} \widetilde{P}(x,y)·\sum_{i=1}^{n}w_i f_i(x,y) - logZ_w(x) · \sum_{x,y} \widetilde{P}(x) P_w(y|x) \tag{2.18} \end{aligned}$

所以公式(3.1)=(2.16)。故而，对偶函数的极大化 = 最大熵模型的似然估计。

3. 三个模型的关系

最大熵模型

$\begin{aligned} p_w(y|x) =& \frac{\exp (\sum_{i=1}^{n} w_i f_i(x,y))} {\sum_{y} \exp (\sum_{i=1}^{n} w_i f_i(x,y))} \end{aligned}$

logistic 模型

当特征函数为：
$f_i(x)= \left\{\begin{matrix} x_i & y=1\\ 0 & y=0 \end{matrix}\right.$
当我们分类的数目为 ${0, 1\}$ 时：
$\begin{aligned} p_w(y_i=0|x_i) =& \frac{1} {1+\exp (\boldsymbol{w x_i})} \end{aligned}$
$\begin{aligned} p_w(y_i=1|x_i) =& \frac{\exp (\boldsymbol{w x_i})} {1+\exp (\boldsymbol{w x_i})} \end{aligned}$

softmax 模型

当特征函数为：
$f_i(x)=x_i$
$\begin{aligned} p_w(y_i=k|x_i) =& \frac{\exp (\boldsymbol{w_k x_i})} {\sum_{k=1}^{K} \exp (\boldsymbol{w_k x_i})} \end{aligned}$

4. logistic 模型

logistics模型

4.1 使用背景

主要是分类问题，即 $\in R$ 是样本的特征，而 $\in \{0, 1\}$ 是类别的标号，那么样本属于某个类别的概率可以用 $x$ 来直接表示。通俗的来说，就是线性模型外面穿了一层马夹。

4.2 logistics模型构建

Logistics模型的基本思想也是线性回归，其公式为：
$\begin{aligned} P(y_i=1|\boldsymbol{x_i})=\frac{\exp(w·\boldsymbol{x_i})} {1+\exp(w·\boldsymbol{x_i})} \tag{4.1} \end{aligned}$
公式(4.1)被称为sigmoid函数，

同样的，由公式(4.1)可以推导出：
$\begin{aligned} \frac{P(y_i=1|\boldsymbol{x_i})}{1-P(y_i=1|\boldsymbol{x_i})}=e^{w·\boldsymbol{x_i}} \tag{4.2} \end{aligned}$
称公式(1.2)为几率，表示某种事情发生的可能性与不可能发生的可能性之比。，取自然对数则有：
$\ln(\frac{P(y_i=1|\boldsymbol{x_i})}{1-P(y_i=1|\boldsymbol{x_i})})=w·\boldsymbol{x_i} \tag{4.3}$
其中， $\ln(\frac{P(y_i=1|\boldsymbol{x_i})}{1-P(y_i=1|\boldsymbol{x_i})})$ 称为 $P(y|\boldsymbol{x})$ 的 logit 函数。该模型称为 logistics模型，其中 $w$ 反映了当 $x$ 增加一个单位时，样本属于 $y = 1$ 类的几率在对数尺度上增加的幅度。

4.3 极大似然估计参数

设 $P(y_i=1|\boldsymbol{x_i})=\pi(\boldsymbol{x_i})，P(y_i=0|\boldsymbol{x_i})=1-\pi(\boldsymbol{x_i})$ ，则每个样本 $(\boldsymbol{x_i}, y_i)$ 出现的概率为：
$P(\boldsymbol{x_i}, y_i)=\pi(\boldsymbol{x_i})^{y_i}(1-\pi(\boldsymbol{x_i}))^{1-y_i}$

似然函数为：
$\begin{aligned} L(w) =&\prod_{i=1}^{N}[\pi(\boldsymbol{x_i})]^{y_i}[1-\pi(\boldsymbol{x_i})]^{1-y_i} \\ \log L(w) =&\sum_{i=1}^{N}[y_i({w}·\boldsymbol{x_i}) - \log(1+\exp({w}·\boldsymbol{x_i}))] \tag{4.4} \end{aligned}$
目标是找到 $w$ 使得 $L (w)$ 达到最大值，让公式(1.4)对 $w$ 求导得：
$\begin{aligned} \frac{\partial{\log L(w)}}{\partial{w}} =&\sum_{i=1}^{N}[y_i\boldsymbol{x_i} - \frac{1}{1+\exp({w}·\boldsymbol{x_i})}\exp({w}·\boldsymbol{x_i})·\boldsymbol{x_i}]\\ \frac{\partial{\log L(w)}}{\partial{w}} =&\sum_{i=1}^{N}\boldsymbol{x_i}[y_i - P(y_i|\boldsymbol{x_i})]\\ \tag{4.5} \end{aligned}$

令(1.5)为0，求出 $w$ 即可，但该方程组无法求解析解，一般使用梯度上升迭代求得。

5. softmax 模型

当特征函数为：
$f_i(x)=x_i$
$\begin{aligned} p_w(y_i=k|x_i) =& \frac{\exp (\boldsymbol{w_k x_i})} {\sum_{k=1}^{K} \exp (\boldsymbol{w_k x_i})} \end{aligned}$
一个多分类问题，C = 4。线性分类器模型最后输出层包含了四个输出值，分别是：
$V=\left[ \begin{matrix} -3 \\ 2 \\ -1 \\ 0 \end{matrix} \right]$
经过Softmax处理后，数值转化为相对概率：
$S=\left[ \begin{matrix} 0.0057 \\ 0.8390 \\ 0.0418 \\ 0.1135 \end{matrix} \right]$
很明显，Softmax 的输出表征了不同类别之间的相对概率。我们可以清晰地看出，S1 = 0.8390，对应的概率最大，则更清晰地可以判断预测为第1类的可能性更大。Softmax 将连续数值转化成相对概率，更有利于我们理解。

5.1 一个直观的例子

在这里插入图片描述
softmax函数最明显的特点在于：它把每个神经元的输入占当前层所有神经元输入之和的比值，当作该神经元的输出。这使得输出更容易被解释：神经元的输出值越大，则该神经元对应的类别是真实类别的可能性更高。
另外，softmax不仅把神经元输出构造成概率分布，而且还起到了归一化的作用，适用于很多需要进行归一化处理的分类问题。

6. 参考文献

EntropyPlus

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Logistic模型、最大熵模型与softmax模型

1. logistics 回归模型1.1 logistics模型构建对于数据集T={(x1,y1),...,(xN,yN)}T=\{(x_1,y_1),...,(x_N,y_N)\}T={(x1,y1),...,(xN,yN)}有Logistics模型的基本思想也是线性回归，其公式为：hw(xi)=ew⋅xi1+ew⋅xi(1.1)\begin{aligned}h_w(x_...
复制链接

扫一扫