最大熵的哲学思想为:在已知样本情况下,从所有可能的模型中,选择最没有额外假设的那一个,这样经验风险最小(经验风险最小也即因为我们没有额外信息,这样偏离真实模型的可能的距离最小)。
对模型训练的理解:给定一个样本X我们要预测Y,首先要明确的是:我们的训练集不可能穷尽所有样本X(如果我们可以穷尽所有的X|Y对应,那么我们就不需要机器学习模型了,我们从数据库检索X对应的Y值即可)。那么也就是说,我们能掌握的是X和Y之间的一部分关系,这部分X我们是知道它的真实标签Y的。我们训练模型的目的是对已知X之外的样本进行预测,模型训练其实就是虚构这部分的额外信息。训练之前我们只能给出已知X的Y值,训练之后我们可以对任意X都给出一个Y值,这时能对更多样本预测的原因就是:我们用模型训练补上了一部分信息量,但是这部分信息是虚构的,只是我们根据已有样本的一种猜测,并不一定正确,这就是我们为什么要让经验风险最小的原因,就是避免我们的猜测偏离真实情况太远。
解读韦恩图:从上图可以看出,对于判别模型H(Y|X)而言,红色部分互信息I(X,Y)就代表了我们所设定的X和Y之间的一些确定性关系,这部分确定性关系既有我们在训练集中确实知道的真实的确定性关系,还包括训练模型过程中我们虚构的额外的关系。但是我们知道这部分虚构的假设是不合理的,会带来经验性风险。所以我们要构建的最终模型应该是:I(X,Y)完全是我们已知的信息带来的,然后对于我们不知道的X:我们要使得给定X后不同类别Y发生的概率相等(给定一个X,预测任何标签yi都一样,也即X和目标Y无关。因为这部分X我们本来也不知道,将它设定为预测到任何一类的概率相等,这样就不引入额外的假设。因为预测为任何类别yi概率都相等,显然这时不确定性最大,也即最大熵原理)。