最大熵模型

最新推荐文章于 2024-02-09 00:32:58 发布

futurewq

最新推荐文章于 2024-02-09 00:32:58 发布

阅读量241

点赞数

分类专栏： machine learning 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangrongrongwq/article/details/119942939

版权

machine learning 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

最大熵模型由最大熵原理推导实现。

1.最大熵原理

最大熵原理是概率模型学习中的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型时最好的模型，通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

假设离散随机变量X的概率分布时P(X)，则其熵是

$H(P)=-\sum_{x}P(x)logP(x)$

熵满足一列不等式：
$0\leqslant H(P)\leqslant log|X|$

式中，|X|是X的取值个数，当且仅当X的分布是均匀分布时右边的等号成立。这就是说，当X服从均匀分布时，熵最大。

直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性。“等可能”不容易操作，而熵则是一个可优化的数值指标。

通过一个简单的例子来介绍一个最大熵原理

2.最大熵模型的定义

最大熵原理时统计学习的一般原理，将它应用到分类得到最大熵模型

在这里对上面的特征函数做一个说明，这里说的特征函数并不是数学中所有的特征函数，这里的特征函数更应该叫做指示函数，用来表征x和y的一组组合，这组合中的x和y之间存在一个相同的关系。数学中的特征函数具体定义为(https://baike.baidu.com/item/%E7%89%B9%E5%BE%81%E5%87%BD%E6%95%B0/5126430?fr=aladdin)

接下来，定义模型的约束条件

关于(6.10)和(6.11)更通俗的理解(参考链接https://zhuanlan.zhihu.com/p/234442747)：

最后，最大熵模型的定义为：

最后想说明的一点是：
统计学中的特征函数和概率分布一一对应，这个原因是因为，特征函数是概率密度的傅里叶变换的共轭复数，如下图所示。

特征函数的泰勒公式展开后可以看到其可以求出各阶距，具体参考下图和链接(https://www.zhihu.com/question/23686709)

换句话说，概率分布可以由各阶中心距来决定，因此我们可以用各阶矩相等来表征真实分布和经验分布相等。从而可以解决下面的问题1

问题1：为什么让期望值相等就可以表征真实分布和经验分布相等，即6.11：
最大熵本质是伯努利分布，而通过计算伯努利分布的各阶中心距可以发现其都等于均值，因此只需要让期望值相等，就可以表征真实分布和经验分布相等。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型

https://zhuanlan.zhihu.com/p/234442747https://www.zhihu.com/question/23686709
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。