机器学习(十二)——最大熵模型

笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。

我的公众号为:livandata

最大熵模型是基于最大熵原理的,在已知条件下,未知领域的数据均以最大化熵值分布;最大熵模型的意义在于对构建的模型f(x)进行最优化调整;

因此,最大熵模型的学习相当于求解最大熵模型,如上。该问题其实就是解决在约束条件下的最优化问题求解。解决max H(P)问题时,首先我们想到的是梯度下降算法求解max值,但是该问题是带约束的问题,无法使用梯度下降算法求解,因此,我们可以引入拉格朗日乘子w0,w1,w2,…,wn,定义拉格朗日函数L(P, w):

Ø  熵的基本概念:

极大似然法:即将带有未知参数的概率模型相乘,如果有n个样本,则有n个模型,然后n个模型相乘形成一个复合的函数式,这个函数式的未知量为每个模型的参数;构建模型之后,再根据每个参数求导,得出对应参数的最大值,即为参数值;

互信息:由于添加了Y因素,导致X因素不确定性的减少量即为互信息:

共同信息量:即两个同时发生的信息量:I(x,y)=I(x)+I(y)

熵是对平均不确定性度量的期望:

自信息:事件发生前,事件发生的不确定性,其期望值即为熵:

信息增益:互信息的期望:

条件熵与信息增益的关系:H(X)-I(X,Y)=H(X|Y)

条件熵是在已知随机变量X的条件下随机变量Y的不确定性;

最大化的条件熵(条件熵的最稳定值)即为条件概率;

交叉熵:衡量两个概率分布的差异:

相对熵:交叉熵-熵衡量两个概率分布之间的差异性:

最大熵原理:承认已知事务,对未知事物不做任何假设,平均分布,存在且唯一存在最稳定值;

最大熵模型的对偶极大化等价于极大似然法中求导法的概率;

信息熵在x=1处一阶泰勒展开就是基尼指数;

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值