目录
2.1 条件熵=联合熵-熵:H(Y|X)=H(X,Y)-H(X)
一、最大熵原理
学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。
最大熵原理认为,首先必须满足已有事实(约束条件),在没有更多信息的情况下,那些不确定的部分都是“等可能的”。 其中,熵可以量化“等可能”(等概率,熵最大)。
二、最大熵模型
最大熵原理是统计学习的一般原理,应用到分类得到最大熵模型。
假设我们的模型是条件概率P(y|x),最大熵模型最大化模型的信息熵,即目标函数为max H(p)。
再根据“模型尽可能的符合经验分布”,得到约束条件Ep=Ep~(特征/指示函数 关于联合经验分布的期望=关于边缘分布和条件概率的期望),建立等式约束优化问题。