1.最大熵模型:
联合分布,边缘分布,条件分布, 经验分布
为了避免混淆三种分布的定义,这里举一个最简单的例子。
设 x,y的联合分布如下(横轴是x的取值,纵轴y是的取值)
x/y
0.1 0.3 0.1 0.5
0.2 0.2 0.1 0.5
0.3 0.5 0.2 1
两者的边缘分布为
0.5 0.5 两个表格的分割线 0.3 0.5 0.2
条件分布为:在特定的条件下这个事情发生的概率
假设我有5个苹果,条件是在这五个苹果(x事件当中),红苹果(y事件)出现的概率 :P(y|x)
经验分布:
经典统计推断主要的思想就是用样本来推断总体的状态,因为总体是未知的,我们只能通过多次试验的样本(即实际值)来推断总体。
经验分布函数是在这一思想下的一种方法,通过样本分布函数来估计总体的分布函数。
因此在最大熵模型中就运用经验分布。
熵:表示物质系统状态的一种度量。用它表征系统无序成都,熵越大,系统越无序,系统结构和运动越不确定和无规则,在信息论中同样使用,熵越大,这件事情发生的概率越小,事件越不确定。
最大熵原理:对一个随机事件的概率分布进行预测时&