对最大熵模型为什么要最大化熵的一点理解

参考:
https://www.zhihu.com/question/35295907

最大熵的哲学思想为:在已知样本情况下,从所有可能的模型中,选择最没有额外假设的那一个,这样经验风险最小(经验风险最小也即因为我们没有额外信息,这样偏离真实模型的可能的距离最小)。

对模型训练的理解:给定一个样本X我们要预测Y,首先要明确的是:我们的训练集不可能穷尽所有样本X(如果我们可以穷尽所有的X|Y对应,那么我们就不需要机器学习模型了,我们从数据库检索X对应的Y值即可)。那么也就是说,我们能掌握的是X和Y之间的一部分关系,这部分X我们是知道它的真实标签Y的。我们训练模型的目的是对已知X之外的样本进行预测,模型训练其实就是虚构这部分的额外信息。训练之前我们只能给出已知X的Y值,训练之后我们可以对任意X都给出一个Y值,这时能对更多样本预测的原因就是:我们用模型训练补上了一部分信息量,但是这部分信息是虚构的,只是我们根据已有样本的一种猜测,并不一定正确,这就是我们为什么要让经验风险最小的原因,就是避免我们的猜测偏离真实情况太远。
在这里插入图片描述
解读韦恩图:从上图可以看出,对于判别模型H(Y|X)而言,红色部分互信息I(X,Y)就代表了我们所设定的X和Y之间的一些确定性关系,这部分确定性关系既有我们在训练集中确实知道的真实的确定性关系,还包括训练模型过程中我们虚构的额外的关系。但是我们知道这部分虚构的假设是不合理的,会带来经验性风险。所以我们要构建的最终模型应该是:I(X,Y)完全是我们已知的信息带来的,然后对于我们不知道的X:我们要使得给定X后不同类别Y发生的概率相等(给定一个X,预测任何标签yi都一样,也即X和目标Y无关。因为这部分X我们本来也不知道,将它设定为预测到任何一类的概率相等,这样就不引入额外的假设。因为预测为任何类别yi概率都相等,显然这时不确定性最大,也即最大熵原理)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值