1、熵:随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化为定值,熵为0。均匀分布是最不确定的分布。
假设离散随机变量x的概率分布为p(x),则其熵为:,其中0H(p)log。
其中|X|是X的取值个数.当且仅当X的分布是均匀分布时右边等号成立, 也就是说, 当X服从均匀分布时, 熵最大。
2、最大熵:保留最大的不确定性(让熵达到最大)
3、最大熵模型的原理:在特征条件限制下,提取最优的概率分布(在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布)
给定一个训练数据集:T={(