最大熵原理与最大熵模型

本文深入探讨最大熵原理,解释如何在有限的观测数据下,寻找最合理的概率分布。最大熵模型常用于自然语言处理的分类问题,通过最大化熵来解决数据稀疏性带来的挑战。文中介绍了匹配等式的构建、优化问题的求解,以及与最大对数似然的关系,并讨论了Generalized Iterative Scaling (GIS)算法的应用。
摘要由CSDN通过智能技术生成

最大熵原理非常简单,是一个关于最合理的概率分布的准则:

最合理的概率分布是包含已知信息,但不做任何未知假设,把未知事件当成等概率事件处理的概率分布.

利用最大熵原理求解最合理概率分布:

  1. 把约束条件列出来(即把我们从sample中观察到一些现象用等式表达出来)
  2. 把Entropy表达式写出来
  3. 利用Lagrange Multiplier进行求解

最大熵模型:

我利用Adwait Ratnaparkhi 1997年的文章A Simple Introduction to Maximum Entropy Models for Natural Language Processing来进行阐述。

NLP中的许多问题其实都可以表示成分类问题,即在给定某种观察b的情况下,判断出目标是属于哪个类别a。对该分类问题的求解,我们可以进一步认为是要去估计一个联合概率分布

在不同的NLP任务中,所谓的观察b会有不同的呈现。比如,b有可能是目标前的一个词或一个字符;也可能是目标前后的各一个词;或者再包括上这些词的某些语法特征(如POS)等等。即便对某一个相同的NLP任务,不同的技术人员也会用到不同的b。比如,我们想要在字符层面上去做NER,我们可以用目标字符的前后2个字符作为观察,也可以用前后5个字符作为观察,去判断目标字符所对应的label。

一般说来class 的可能值不会太多,但是b里出现的字,词的可能值却有很多很多(dimensionality curse),这导致即便在大规模的语料库里,我们都不可能找到足够多的(a,b)对,从而把对应所有(a,b)对的P(a,b)给准确地估计出来。

于是乎,我们现在的问题变成了如何利用在语料库中所得到的,稀疏的观察,即(a,b)对,去估计出一个最合理的联合概率分布

最大熵原理指出,在所有能够与我们从稀疏的观察里总结出的“事实(或者说信息)”相匹配的概率分布中,拥有最大熵的那个概率分布式最合理可靠的。

那么现在,我们所要考虑的问题可以进一步被分拆为:

  1. 如何在数学上去表达我们从稀疏的观察里总结出的“事实(或者说信息)”?如何从数学上去表达一个概率分布和这些“事实(或者说信息)”是相匹配的?
  2. 当我们找到与“事实(或者说信息)”相匹配的概率分布的集合后,如何在这个集合中去找到具有最大熵的那个概率分布。

该问题其实就是一个典型的,寻找条件约束下最优值的问题。

如何在数学上去表达我们从稀疏的观察里总结出的“事实(或者说信息)”?如何从数学上去表达一个概率分布和这些“事实(或者说信息)”是相匹配的?

  1. 这两个问题是关联在一起的。
  2. 假如我们在语料库里发现,当b中存在某种特征时,a等于某个值的概率很高或很低;
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值