信息论几个基本概念

最新推荐文章于 2024-06-28 23:14:47 发布

愚人布偶

最新推荐文章于 2024-06-28 23:14:47 发布

阅读量1w

点赞数 2

分类专栏： machine learning

machine learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在学习机器学习的算法之前，需要明确几个基本概念。

1. 信息熵（entropy）

熵是表示随机变量不确定性的度量.从直观上，信息熵越大，变量包含的信息量越大，变量的不确定性也越大。一个事物内部会存在随机性，也就是不确定性，而从外部消除这个不确定性唯一的办法是引入信息。如果没有信息，任何公式或者数字的游戏都无法排除不确定性。几乎所有的自然语言处理，信息与信号处理的应用都是一个消除不确定性的过程。

2 条件熵（conditional entropy）

条件熵H（Y|X）表示在已知随机变量Y的条件下随机变量X的不确定性，随机变量Y给定的条件下，随机变量X的条件熵H（Y|X）定义为——X给定条件下Y的条件概率分布的熵对X的数学期望。知道的信息越多，随机事件的不确定性就越小。

定义式：

3 联合熵

设X Y为两个随机变量，随机变量X和Y联合信息熵：

4 左右熵

一般用于统计方法的新词发现。

计算一对词之间的左熵和右熵，熵越大，越说明是一个新词。因为熵表示不确定性，所以熵越大，不确定越大，也就是这对词左右搭配越丰富，越多选择。如：屌丝，这个词，我们希望左右熵都很大，希望屌丝这个词左右边搭配尽可能丰富，如左边：这屌丝、臭屌丝、穷屌丝；右边：屌丝的，屌丝样、屌丝命等。左右搭配丰富。

5信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，在分类中是一种衡量样本特征重要性的方法，直观的理解是有无样本特征对分类问题的影响的大小。假设某个状态下系统的信息熵为H(Y)，再引入某个特征X后的信息熵为H(Y|X)，则特征X的信息增益定义为：

信息增益在机器学习领域有着重要的应用。例如在构建决策树时，利用信息增益，选择重要的特征分裂数据集；在文本特征选择方法中，利用IG方法进行特征选择。理解熵的概念、信息增益的概念可以帮助我们增加对这些算法的理解。一般地，熵H（Y）与条件熵H（Y|X）之差称为互信息，决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

6互信息（mutual information）

两个事件的互信息定义为：I(X;Y)=H(X)+H(Y)-H(X,Y)，也就是用来衡量两个信息的相关性大小的量。

互信息是计算语言学模型分析的常用方法，它度量两个对象之间的相互性。

定义式：

7基尼指数

分类问题中，假设有m个类，样本点属于第i类的概率为Pi，则概率分布的基尼指数定义为

如果样本集合D根据特征A是否取某一可能值a被分割成D1和D2两部分，则在特征A的条件下，集合D的基尼指数定义为

其中，基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A = a分割后集合D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这与熵相似。