最大熵模型

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u012151283/article/details/77619799

最大熵(maximum entropy model)由最大熵原理推导实现。这里首先叙述一般的最大熵原理,然后讲解最大熵模型的推导,最后给出最大熵模型学习的形式。

最大熵原理

最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
最大熵原理也可以表述为在满足约束条件的模型中选取熵最大的模型。
假设离散型随机变量X的概率分步是P(X),则其熵
H(P)=xP(x)logP(x)
熵满足下列不等式:
0H(P)log|X|
式中,|X|是X的取值个数,当且仅当X的分步是均匀分布时右边的等号成立。
当X服从均匀分布时,熵最大。

最大熵模型的定义

最大熵原理应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布P(Y|X)
给定一个训练集T,学习的目标是用最大熵原理选择最好的分类模型。
首先考虑模型应该满足的条件。给定训练集,可以确定联合分步P(X,Y)的经验分步和边缘分布P(X)的经验分布,分别以P˜(X,Y)P˜(X)
用特征函数(feature function)f(x,y)描述输入x和输出y之间的某一个事实。其定义是
f(x,y)={10xy
特征函数f(x,y)关于经验分布P˜(X,Y)的期望值,用EP˜(f)表示。
EP˜(f)=x,yP˜(x,y)f(x,y)
特征函数f(x,y)关于模型P(Y|X)与经验分布P˜(x)的期望值,用Ep(f)表示。
EP(f)=x,yP˜(x)P(y|x)f(x,y)
如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即
Ep(f)=EP˜(f)(6.10)

x,yP˜(x)P(y|x)f(x,y)=x,yP˜(x,y)f(x,y)(6.11)
我们将式(6.10)或式(6.11)作为模型学习的约束条件。假如由n个特征函数fi(x,y),i=1,...,n,那么就有n个约束条件。
这里写图片描述

最大熵模型的学习

这里写图片描述
将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。
这里写图片描述
这里写图片描述

这里写图片描述

极大似然估计

这里写图片描述
这里写图片描述

参考资料

【机器学习】Logistic Regression 的前世今生(理论篇)

阅读更多

扫码向博主提问

浅梦zju

非学,无以致疑;非问,无以广识
  • 擅长领域:
  • 机器学习
  • 深度学习
  • 强化学习
  • 数据科学
  • Python
去开通我的Chat快问
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页