第四章 决策树
4.1算发原理
从逻辑角度来讲,决策树就是一堆if else语句的组合,从几何角度来讲,根据某种准则划分特征空间。无论怎样,目的都还是让我们的样本越来越纯。
4.2定义:
自信息 I(x)=-logb(p(x))
当自信息中b=2时自信息单位为bit,当b=e时自信息单位为nat。
信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定
H(x)=E[I(x)]=-Σp(x)㏒b(p(x))
计算信息熵时约定,若p(x)=0,则p(x)㏒b(p(x))=0。当X的某个取值的概率为一时信息熵最小(最确定),其值为0,当X的各个取值均等时信息熵最大(最不确定),其值为logb|x|,其中|x|表示x可能取值的个数。
将样本类别标记y视作随机变量,各个类别在样本集合D的占比pk(k=1,2..|y|)视作各个类别取值的概率,则样本集合D(随机变量)的信息熵(底数b取值2)为
Ent(D)=--Σpk㏒2(pk)
此时的信息熵所代表的不确定性可以转换理解为集合内样本纯度。
例如划分出一个特征空间,在一个集合里面全都是正样本或者负样本时最纯,即y取到某一个值k时概率是1,此时既是信息熵(不确定性)最小的时候,也是样本最纯的时候。
4.3条件熵
条件熵(y的信息熵关于概率分布x的期望):在已知x后y的不确定性
H(y|x)=Σp(x)H(Y|X=x)
从单个属性(特征)a的角度来说,假设其可能取值为{a1,a2..av},Dv表示属性a取值为av的样本集合,|dv|/D表示占比,那么在已知属性a的取值后,样本条件D的条件熵是
Σ|Dv|/|D|Ent(Dv)
4.4信息增益
在已知属性(特征)a的取值后y的不确定性减少的量,即纯度的提升
Gain(D,a)=Ent(D)(信息熵)-Σ|Dv|/|D|Ent(Dv)(条件熵)
ID3决策树:以信息增益为准则来选择划分属性的决策树
a*=arg max Gain(D,a)
C4.5决策树
信息增益准则对可能取值数目较多的属性有所偏好(在信息熵,条件熵很小几乎为0时),为减少这种偏好看带来的不便影响,C4.5决策树使用增益率带来信息增益,增益率定义为
Gain_ratio(D,a)=Grain(D,a)/IV(a)
其中
IV(a)=-Σ|Dv|/|D|log2|Dv|/|D|
称为属性a的固有值,a的可能取值个数V越大,通常其固有值IV(a)越大。但是,增益率对可能取值数目较少的属性有所偏好