机器学习中的一些信息论 information theory

信息量:

如果事情x发生,那么 p(x) 能为“事件x发生”所提供的信息量:

h(X)=log2p(x)

也就是消除事情不确定性所需要的信息量,单位是 比特
国足取得冠军的概率是0.01 h()=log20.01=4.6
羽毛球队取得冠军的概率是0.9 h()=log20.9=0.1

在信息论中,熵是接收的每条消息中包含的信息的平均量,它是不确定性的度量,越随机的信号源其熵越大
离散:

H(X)=xp(xi)log2p(xi)

连续:
H(X)=p(x)log2p(x)

在最优化理论中,很多算法用熵作为优化目标,Watanabe也提出过“学习就是一个熵减的过程”,算法学习的过程就是信息不确定性减小的过程。比如 bayesian 分类器,在两类样本数量严重不平衡的情况下,如果以经验公式为训练目标,那么对少数类样本的分类会有严重的错误率,而以互信息为训练目标的分类器,则能够根据样本比例自动平衡错误率。

联合熵

度量二维随机变量的不确定性

H(XY)=ijp(xi,yj)log2p(xi,yj)

条件熵

H(Y|X) 表示已知 X , 求 Y 的平均不确定性

H(Y|X)=ijp(
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值