机器学习-最大熵模型

本文介绍了最大熵模型,一种分类模型,它基于最大熵原理选择熵最大的模型。内容包括最大熵模型的定义、条件熵、学习过程以及使用拉格朗日乘子法求解模型的最优化算法。最大熵模型通过求解一系列的拉格朗日乘子来确定条件概率,最终用于分类任务。
摘要由CSDN通过智能技术生成

        最大熵模型是一种分类模型,它学习之后对某个x判断的结果是一个概率,即对一个自变量,它的分类分别是y1,y2,y3…yn的概率,然后概率最大的分类结果就是我们所要的结果分类ym。

  1. 最大熵原理

        最大熵原理认为,学习概率模型时在所有可能的概率模型中,熵最大的模型是最好的模型,这个是准则。但是在学习过程中,往往是有约束条件的,所以,熵最大原理也可以表述为在满足约束条件的模型集合中选取上最大的模型。

根据以前的知识,我们知道熵的定义为:

                                                       

其中熵满足下列不等式:

                                                       

其中|X|是X的取值的个数(不等式怎么来的,先不考虑,应该有严格的数学证明)。通过上面不等式,我们可以得出熵最大的情况就是H(P) = log|X|,而什么情况下可以满足等式呢,就是当X的分布是均匀分布时,等式成立,也就是熵最大,下面进行简单的说明:

先给出均匀分布:

                                                         

不考虑等于0的情况,均匀分布就是等可能,即p(x)=1/(b-a)带入不等式中的两个式子的H(p)=log(b-a),log|X|=log(b-a),所以H(p)=log|X|,所以这里得出的结论是:在所有的X即不确定的部分是等可能的情况下,熵是最大的。

上述模型只是原理性的东西,是我们希望得到的最理想的结果,但是实际上模型都是有限制条件的,而加上限制条件后才是我们实际应用中更常遇到的。而我们的目标是在限制条件下,让其熵尽可能的大,从而尽可能的得到更好的模型。

2.最大熵模型的定义

        定义的目的是在给定条件下,使熵最大化,所以我们首先要确定对应的条件。

        在给定的训练数据中,我们可以确定的是联合概率分布P(X,Y)的经验分布和边缘分布P(X),具体的计算方法是用对应的出现的频次除以训练数据的样本容量N。

        对于分类模型我们可以归结为“是”与“否”,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值