机器学习笔记（十九）——最大熵原理和模型定义

最新推荐文章于 2025-02-01 12:53:59 发布

_Kevin_Duan_

最新推荐文章于 2025-02-01 12:53:59 发布

阅读量1.1w

点赞数 3

分类专栏：机器学习最大熵模型文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunyun0716/article/details/53365968

版权

机器学习同时被 2 个专栏收录

30 篇文章

订阅专栏

最大熵模型

1 篇文章

订阅专栏

一、最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为，在学习概率模型时，在所有可能的概率分布中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散型随机变量 $X$ 的概率分布式 $P(X)$ ，则其熵是：

H (P) = - \sum x P (x) log P (x)

$H(P)=-\sum_x P(x) \log P(x)$
熵满足下列不等式：

0 \leq H (P) \leq log | x |

$0 \le H(P) \le \log|x|$
式中，

|X| $|X|$ 是

X $X$ 取值个数，当且仅当

X $X$ 的分布是均匀分布时右边的等号成立。这就是说，当

X $X$ 服从均匀分布时，熵最大。

二、最大熵模型的定义

假设分类模型是一个条件概率分布 $P(Y|X)， X \in \mathcal{X} \subseteq \mathbb{R}^n$ ，表示输入， $Y \in \mathcal{Y}$ 表示输出， $\mathcal{X},\mathcal{Y}$ 分别是输入和输出的集合。这个模型表示的是对于给定的输入 $X$ ，以条件概率 $P(Y|X)$ 输出 $Y$ .
给定一个训练数据集

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

$T = \{(x_1, y_1),(x_2, y_2),\dots,(x_N, y_N)\}$
学习的目标是用最大熵原理选择最好的分类模型。
对于给定的数据集，我们可以确定联合分布的经验分布和边缘分布的经验分布。用特征函数

f(x,y) $f(x,y)$ 描述

x,y $x,y$ 之间的一个事实,即：

f (x, y) = {1, 0, x 与 y 满 足 某 一 事 实 否 则

$f(x, y) = \left\{ \begin{array}{ll} 1, & x与y满足某一事实 \\ 0, &否则 \end{array} \right.$

特征函数 $f(x,y)$ 关于经验分布 $\widetilde{P}(X,Y)$ 的期望值, 用 $E_{\bar{p}}(f)$ 表示。

E p ¯ (f) = \sum x, y P ˜ (x, y) f (x, y)

$E_{\bar{p}}(f) = \sum_{x, y} \widetilde{P}(x,y) f(x,y)$

特征函数 $f(x,y)$ 关于模型 $P(Y|X)$ 与经验分布 $\widetilde{P}(X)$ 的期望值，用 $E_{p}(f)$ 表示

E p (f) = \sum x, y P ˜ (x) P ˜ (y | x) f (x, y)

$E_{p}(f) = \sum_{x, y} \widetilde{P}(x)\widetilde{P}(y|x) f(x,y)$

如果模型可以获得训练数据中的信息，我们就可以假设这两个期望相等：

E p ¯ (f) = E p (f)

$E_{\bar{p}}(f) = E_{p}(f)$

定义(最大熵模型) 假设满足所有约束条件的模型集合为

C \equiv {P \in P | E p ¯ (f i) = E p (f i), i = 1, 2 \dots, n}

$\mathcal{C} \equiv \{P \in \mathcal{P} |E_{\bar{p}}(f_i) = E_{p}(f_i), i = 1, 2 \dots, n\}$
定义在条件概率分布

P(Y|X) $P(Y|X)$ 上的条件熵为：

H (P) = - \sum x, y P ˜ (x) P (y | x) log P (y | x)

$H(P) = -\sum_{x, y} \widetilde{P}(x) P(y|x) \log P(y|x)$
则模型集合

C $\mathcal{C}$ 中条件熵

H(P) $H(P)$ 最大的模型称为最大熵模型，对数为自然对数。后续将继续给出求解最大熵模型的过程。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。