一、信息论基础:
熵
熵是热力学中表征物质状态的参量之一,其物理意义是体系混乱程度的度量
信息熵
1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。
联合熵
联合熵就是度量一个联合分布的随机系统的不确定度,联合熵的物理意义是:观察一个多个随机变量的随机系统获得的信息量。下面给出两个随机变量的联合熵的定义:分布为 p(x,y)p(x,y)p(x,y) 的一对随机变量 (X,Y)(X,Y)(X,Y) ,其联合熵定义为:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=E[logp(x,y)1]
条件熵
条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望:
条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X),即:H(Y|X)=H(X,Y)−H(X)
因此,可以这样理解,描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定 X 的条件下具体化 Y 所需的额外信息。
信息增益
信息增益在决策树算法中是用来选择特征的指标,信息增益越大,则这个特征的选择性越好,在概率中定义为:待分类的集合的熵和选定某个特征的条件熵之差(这里只的是经验熵或经验条件熵,由于真正的熵并不知道,是根据样本计算出来的),公式如下:
基尼不纯度
基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。
是在进行决策树编程的时候,对于混杂程度的预测中,一种度量方式。
二、决策树的不同分类算法
ID3
ID3由Ross Quinlan在1986年提出。ID3决策树可以有多个分支,但是不能处理特征值为连续的情况。决策树是一种贪心算法,每次选取的分割数据的特征都是当前的最佳选择,并不关心是否达到最优。在ID3中,每次根据“最大信息熵增益”选取当前最佳的特征来分割数据,并按照该特征的所有取值来切分,也就是说如果一个特征有4种取值,数据将被切分4份,一旦按某特征切分后,该特征在之后的算法执行中,将不再起