第五章 决策树
决策树是一种基本的分类与回归方法。
决策树模型与学习
定义:分类决策模型是一种描述对实例及逆行分裂的树形结构,由结点,有向边组成。
两种结点:内部结点和叶结点。内部结点表示一种特征或属性,叶结点表示一个类。
if-then规则:决策树可以看成一个if-then规则集合(条件if- else)
条件概率分布:
当成if else ,纵向是概率。a1是第一特征选择,分类完,左子树再用a2作为特征选择进行分类;右子树用a3作为特征选择。
特征选择:在于选取对训练数据具有分类能力的特征。通常选择准则为信息增益与信息增益比。
信息增益:与表示随机变量不确定性地度量——熵有关系。(熵表示一个物质的混乱程度,熵越大,混乱程度越大)
用熵间接表示训练数据经过特征选择后,熵的变化量来表示。选取熵前后变化量最大来表示该特征选择具有很好的分类效果。
条件熵:表示在已知随机变量X的条件下随机变量Y的不确定性,随机变量X给定的条件下随机变量Y的条件熵。(Y在X条件确定下的混乱程度)
信息增益:得知特征X的信息后,使得类Y的信息不确定性减少的程度。(前后变化量)
熵与条件熵之差称为互信息,决策树学习中的信息增益等价于训练数据集中类和特征的互信息。
信息增益大,具有强大的分类能力。
信息增益比:
为不加占比的(再理解)
决策树的生成
ID3算法:核心为在决策树各个结点上应用信息增益准则选择特征。
1.从根结点开始,对结点计算所有可能的特征的信息增益,进行比较,选择信息增益最大的特征作为结点的特征,由该特征不同取值分类,建立子结点。
2.再对子结点递归调用1,构建决策树。(左子结点不属于同一类则以该结点为新的根结点,计算剩下特征的信息增益,再次选择信息增益最大作为特征;右结点属于同一类,则结束)
3.知道所有特征信息增益均很小或没有特征可以选择位置,最后得到一个决策树。
ID3算法只有树的生成,所以生成的树特别容易产生过拟合。
C4.5算法:与ID3算法相近,但以信息增益比准则选择特征。
决策树的剪枝:决策树生成算法递归地产生决策树,特别容易出现过拟合。也要考虑决策树的复杂度,对已生成的决策树进行简化。
在决策树学习中将已生成的树进行简化的过程称为剪枝。
剪枝算法是利用损失函数在经过剪枝之后的大小。剪枝之后损失函数变小,则剪枝成功。