学习笔记9.25

信息增益

参考周志华老师的机器学习这本书,学习了信息增益的内容:

“信息熵”是度量样本集合纯度最常用的一种指标。假设当前样本集合中第 k 类样本所占的比例为pk(k=1,2,...,|y|),则 D 的信息熵定义为

Ent(D)=k=1|y|pklog2pk

Ent(D) 的值越小,则 D 的纯度越高。
假定离散属性a V 个可能的取值{a1,a2,...,aV},若使用 a 来对样本集D进行划分,则会产生 V 个分支节点,其中第v个分支节点包含了 D 中所有在属性a上取值为 av 的样本,记为 Dv . 计算出 Dv 的信息熵,考虑到不同的分支节点包含的样本数不同,给分支节点赋予权重 |Da||D| 即样本数越多的分支节点的影响越大,于是课计算出用属性 a 对样本集D进行划分所获得的“信息增益”

Gain(D,a)=Ent(D)v=1V|Dv||D|Ent(Dv)

一般而言,信息增益越大,则意味着使用属性 a 来进行划分所获得的纯度提升。

互信息

根据维基百科的定义:一般地,两个离散随机变量X Y 的互信息可以定义为:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p{y})

p(x,y) X ,Y的联合概率分布函数, p(x) p(y) 分别是 X ,Y的边缘概率密度。
在连续随机变量的情形下,求二重积分
I(X;Y)=YXp(x,y)log(p(x,)p(x)p(y))dxdy

直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值