机器学习笔记(十九)——最大熵原理和模型定义

一、最大熵原理

    最大熵原理是概率模型学习的一个准则。最大熵原理认为,在学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵模型也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
    假设离散型随机变量 X 的概率分布式P(X),则其熵是:

H(P)=xP(x)logP(x)

熵满足下列不等式:
0H(P)log|x|

式中, |X| X 取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当 X 服从均匀分布时,熵最大。

二、最大熵模型的定义

     假设分类模型是一个条件概率分布P(Y|X)XXRn, 表示输入, YY 表示输出, X,Y 分别是输入和输出的集合。这个模型表示的是对于给定的输入 X ,以条件概率P(Y|X)输出 Y .
    给定一个训练数据集

T={(x1,y1),(x2,y2),,(xN,yN)}

学习的目标是用最大熵原理选择最好的分类模型。
     对于给定的数据集,我们可以确定联合分布的经验分布和边缘分布的经验分布。用特征函数 f(x,y) 描述 x,y 之间的一个事实,即:
f(x,y)={1,0,xy

特征函数 f(x,y) 关于经验分布 P˜(X,Y) 的期望值, 用 Ep¯(f) 表示。

Ep¯(f)=x,yP˜(x,y)f(x,y)

特征函数 f(x,y) 关于模型 P(Y|X) 与经验分布 P˜(X) 的期望值, 用 Ep(f) 表示

Ep(f)=x,yP˜(x)P˜(y|x)f(x,y)

如果模型可以获得训练数据中的信息, 我们就可以假设这两个期望相等:

Ep¯(f)=Ep(f)

定义(最大熵模型) 假设满足所有约束条件的模型集合为

C{PP|Ep¯(fi)=Ep(fi),i=1,2,n}

定义在条件概率分布 P(Y|X) 上的条件熵为:
H(P)=x,yP˜(x)P(y|x)logP(y|x)

则模型集合 C 中条件熵 H(P) 最大的模型称为最大熵模型,对数为自然对数。后续将继续给出求解最大熵模型的过程。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值