信息熵,条件熵,信息增益与信息增益比

1. 信息熵

表示随机变量不确定性的度量。设 X 是一个取有限值的离散随机变量,其概率分布为

                                                                        P(X=x_{i})=p_{i}, i=1,2,...,n

那么随机变量 X 的信息熵

                                                                                 H(X)=- \sum_{i=1}^n{p_ilogp_i}}

 当 p_1=p_2=...=p_n=\frac{1}{n} 时,信息熵H(X) 取最大。

1.1 证明

要求 H(X) 最大

                                                                        maxH(X)=- \sum_{i=1}^n{p_ilogp_i}}, st. \sum_{i=1}^np_i=1

首先构造拉格朗日公式,

                                                                     maxL(X,\alpha )=- \sum_{i=1}^n{p_ilogp_i}} + \alpha(\sum_{i=1}^np_i-1)

然后对 p_i 求导,得到 p_i 为一常数,所以结论成立。

2. 条件熵

条件熵 H(Y|X) 表示已知随机变量 X 的条件下,随机变量 Y 的不确定性,定义为

                                                                               H(Y|X)=\sum_{i=1}^n{p_iH(Y|X=x_i)}

其中,p_i=P(X=x_i), i=1,2,...n

3. 信息增益

特征 A 对训练集 D 的信息增益 g(D, A) 是,集合 D 的经验熵 H(D) 与给定特征 A 的条件下 D 的经验条件熵 H(D|A) 之差,即

                                                                                    g(D, A)=H(D)-H(D|A)

一般地,熵 H(Y) 与条件熵 H(Y|X) 之差称为互信息。

信息增益表示特征 A 对训练集 D 的分类不确定性的减少程度。

4. 信息增益比

特征 A 对训练集 D 的信息增益比的定义是

                                                                                       g_r(D,A)=\frac{g(D,A)}{H(A)}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值