最大熵模型

1.最大熵模型:

联合分布,边缘分布,条件分布, 经验分布
为了避免混淆三种分布的定义,这里举一个最简单的例子。
设 x,y的联合分布如下(横轴是x的取值,纵轴y是的取值)
x/y
0.1 0.3 0.1 0.5
0.2 0.2 0.1 0.5
0.3 0.5 0.2 1
两者的边缘分布
0.5 0.5 两个表格的分割线 0.3 0.5 0.2
条件分布为:在特定的条件下这个事情发生的概率
假设我有5个苹果,条件是在这五个苹果(x事件当中),红苹果(y事件)出现的概率 :P(y|x)
经验分布
经典统计推断主要的思想就是用样本来推断总体的状态,因为总体是未知的,我们只能通过多次试验的样本(即实际值)来推断总体。

经验分布函数是在这一思想下的一种方法,通过样本分布函数来估计总体的分布函数。

因此在最大熵模型中就运用经验分布。

:表示物质系统状态的一种度量。用它表征系统无序成都,熵越大,系统越无序,系统结构和运动越不确定和无规则,在信息论中同样使用,熵越大,这件事情发生的概率越小,事件越不确定。

熵的不同种类

最大熵原理:对一个随机事件的概率分布进行预测时,预测应当满足全部已知的约束,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因此得到的概率分布的熵是最大。

**最大熵模型: **投资时常说不要把所有的鸡蛋放在一个篮子里,这样可以降低风险,在信息处理中,同样适用,数学上,这个原理被称为 最大熵模型,其实就是保留所有的不确定性,将风险降到最低。
最大熵公式
对我们的模型求解的方法有很多,我们得到的也是一个真正的解而不是近似解,拉格朗日对偶和极大似然估计的效果一样,专门解决这个问题的算法有GIS,IIS
特点:形式简单,实现复杂,使用指数形式,它是实现跟你的上下文和你的主题共同决定,我们使用这个公式求的就是lambda 和z参数
应用:词性标注和句法分析,机器翻译,股票预测
例子:假如一篇文章当中出现了王波,那是啥那,*可以是晓,也可以是小,但是如果是台湾研究两岸关系的的话就是王晓波,如果 是作家的话就是王小波,所有主题不同,也会受到影响。w1,w2是上下文,subject是文章的主题

最大熵模型小结
    最大熵模型在分类方法里算是比较优的模型,但是由于它的约束函数的数目一般来说会随着样本量的增大而增大,导致样本量很大的时候,对偶函数优化求解的迭代过程非常慢,scikit-learn甚至都没有最大熵模型对应的类库。但是理解它仍然很有意义,尤其是它和很多分类方法都有千丝万缕的联系。

惯例,我们总结下最大熵模型作为分类方法的优缺点:

最大熵模型的优点有:

a) 最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型,作为经典的分类模型时准确率较高

b) 可以灵活地设置约束条件,通过约束条件的多少可以调节模型对未知数据的适应度对已知数据的****拟合程度

最大熵模型的缺点有:

a) 由于约束函数数量和样本数目有关系,导致迭代过程计算量巨大,实际应用比较难

日推音乐一首 李常超 《忘记你太难》

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值