最大熵模型学习笔记

最新推荐文章于 2020-11-17 22:15:15 发布

vincent2610

最新推荐文章于 2020-11-17 22:15:15 发布

阅读量643

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

29 篇文章 0 订阅

订阅专栏

来自http://icek.me/2012/06/最大熵模型学习笔记/

这个学期在实验室主要任务是学习最大熵和CRF这种类型的处理信息概率的模型，从一开学开始看CRF发现看不懂，然后返回来看最大熵，看的模模糊糊，稀里糊涂。中间的时候把师兄写的easyME的代码简单读了一遍，结果还是一头雾水。

一直到最近要开始做Transfer Learning相关的工作，因为CRF实在是太复杂，所以还是决定先在最大熵模型的基础上做文章。原来以为最大熵已经看的有点眉目了，没想到一遇到实际问题就蒙了，其中很多细节问题又看不懂了。所以这几天花了一些功夫重新把模型的原理和具体实现的理论看了一下，做一下笔记。也好以后忘了的时候能回来看一看。（中间还是有一些地方是我自己意淫的，或许有些问题，希望大神们发现了之后能给指出来！）

最大熵模型的理论基础是建立在香农信息论关于熵的这部分上的。

具体对于模型的定义是：
1.对于已知的概率分布的限制，预测出的概率分布结果应严格遵守这个限制；
2.对于没有限制的概率分布部分，预测出的概率分布结果应是整个分布的总熵值最大。

总体来说就是选择满足限定条件的p，使H(p)（总熵值）最大，其中上边的概率分布的事件，其中，针对词性标注来说的话 A就为上下文集合， B为待预测标记的集合

这个地方似乎我原来理解的有问题，主要是上下文集合这个地方与后文的特征函数给搞混了，这个后面会提到（其实现在也不是很确定到底理解的对不对）

对于如何表示概率分布的限制，一般采用特征函数的方法：
特征f是指x与y之间存在的某种特定关系,用二值函数表示
其中xx和yy为特定的标记，看常宝宝《自然语言处理的最大熵模型》里举了一个特征函数的例子
这里t为待预测标记。为上下文集合，他给的例子中说。是上下文中的一个特定词，我原来的理解是事件是,也就是和特征函数里的if条件完全对应，然后后面的推导怎么想都不对，怎么想都是预测出的概率分布和已知概率分布完全一样，就非常纠结。现在一看原来的理解是完全错误的。

后面就比较明白了，现在有了限制的表示——特征函数。我们就可以公式化限制了
其中前者表示预测的概率分布的特征期望，后者表示的是已知的概率分布的特征期望，具体每项可以这么计算
x表示的是每个事件，式子的意义就是对所有的满足特定特征的事件x，对其求出现概率和。原来的时候我在前面理解错了，导致这里死活都看不明白这么做的意义。

最后我们要求的预测的概率分布记为
 其中的P的定义为
k为自己设定的特征函数的总数

再往后就可以通过拉格朗日极值定理推出的形式为（我在看过的文献里都没有见过如何用拉格朗日极值定理推导，主要是本来数学就不行，看着就吐了，自己推不出来，只好硬记了）
公示里的是某种参数，貌似可以直接计算出来。是一个向量参数，应该是有k维，可以通过GIS或IIS迭代算法算出来，这样就可以确定每个的值，这样主要的问题就可以解决了。GIS或IIS迭代算法什么的可以自己找点相关的东西看，我看了下GIS，还是可以理解，IIS还没看就不说什么了。

这总结的可能有地方还不太对，毕竟只是我一个人自己瞎看，有空还是要和学长再去交流一下，看看还有什么不对的地方改正吧。

参考文献
常宝宝《自然语言处理的最大熵模型》（这个写的相当不错）
最大熵理论及其应用廖先桃（这是IR实验室的前辈写的，同样很不错）
还有一些乱七八糟的英文文档，当时看的时候就不太明白，这里就不乱推荐了

vincent2610

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型学习笔记

来自http://icek.me/2012/06/最大熵模型学习笔记/这个学期在实验室主要任务是学习最大熵和CRF这种类型的处理信息概率的模型，从一开学开始看CRF发现看不懂，然后返回来看最大熵，看的模模糊糊，稀里糊涂。中间的时候把师兄写的easyME的代码简单读了一遍，结果还是一头雾水。一直到最近要开始做Transfer Learning相关的工作，因为CRF实在是太复杂，所以还
复制链接

扫一扫