信息论几个基本概念

   在学习机器学习的算法之前,需要明确几个基本概念。

  1. 信息熵(entropy)


  熵是表示随机变量不确定性的度量.从直观上,信息熵越大,变量包含的信息量越大,变量的不确定性也越大。一个事物内部会存在随机性,也就是不确定性,而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息,任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。

2 条件熵(conditional entropy)

条件熵H(Y|X)表示在已知随机变量Y的条件下随机变量X的不确定性,随机变量Y给定的条件下,随机变量X的条件熵H(Y|X)定义为——X给定条件下Y的条件概率分布的熵对X的数学期望。知道的信息越多,随机事件的不确定性就越小。

定义式:

  

3 联合熵

设X Y为两个随机变量,随机变量X和Y联合信息熵:

http://img0.tuicool.com/m2Mrmm.png

4 左右熵

一般用于统计方法的新词发现。

计算一对词之间的左熵和右熵,熵越大,越说明是一个新词。因为熵表示不确定性,所以熵越大,不确定越大,也就是这对词左右搭配越丰富,越多选择。如: 屌丝,这个词,我们希望左右熵都很大,希望屌丝这个词左右边搭配尽可能丰富,如左边:这屌丝、臭屌丝、穷屌丝;右边:屌丝的,屌丝样、屌丝命等。左右搭配丰富。


5信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度,在分类中是一种衡量样本特征重要性的方法,直观的理解是有无样本特征对分类问题的影响的大小。假设某个状态下系统的信息熵为H(Y),再引入某个特征X后的信息熵为H(Y|X),则特征X的信息增益定义为:

                                                                                                              


信息增益在机器学习领域有着重要的应用。例如在构建决策树时,利用信息增益,选择重要的特征分裂数据集;在文本特征选择方法中,利用IG方法进行特征选择。理解熵的概念、信息增益的概念可以帮助我们增加对这些算法的理解。一般地,熵H(Y)与条件熵H(Y|X)之差称为互信息,决策树学习中的信息增益等价于训练数据集中类与特征的互信息。


6互信息(mutual information)

两个事件的互信息定义为:I(X;Y)=H(X)+H(Y)-H(X,Y),也就是用来衡量两个信息的相关性大小的量。

                                                                                              

互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。

定义式:


7基尼指数

分类问题中,假设有m个类,样本点属于第i类的概率为Pi,则概率分布的基尼指数定义为

                                                                                        

如果样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分,则在特征A的条件下,集合D的基尼指数定义为     

                                                                                                                           

其中,基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A = a分割后集合D的不确定性。基尼指数值越大,样本集合的不确定性也就越大,这与熵相似。                                           

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值