分类决策树是一种描述对实例进行分类的树形结构。即通过一系列规则对数据进行分类的过程。
条件概率分布
决策树可以表示为给定特征条件下类的条件概率分布,Y:类别,X:特征。
这一条件概率分布在特征空间的一个划分(partition,如图1所示)上。将特征空间划分为互不相交的单元(Cell)或区域(Region)。
图1
对于二分类任务,当某单元c的条件概率满足时,则认为该单元表示正类。
当有多个类时,算出某单元属于每个类的概率,哪个类的概率大,那么这个区域就属于哪个类。
决策树的一条路径对应于划分中的一个单元。
决策树的条件概率分布由各个单元给定条件下类的条件概率分布组成。
决策树学习
已知:训练集:,其中,即N个样本,n个特征,k个类标签。
目的:构造决策树,并对实例正确分类。
本质:从训练数据集中归纳出一组分类规则,与训练数据集不相矛盾。
假设空间:由无穷多个条件概率模型组成。
一颗好的决策树:与训练数据矛盾较小(即对已知数据集T的拟合能力),同时具有很好的泛化能力(即对未知数据的预测能力)。
如何实现?
策略:最小化损失函数。
特征选择:递归选择最优特征。
生成:对应特征空间的划分,直到所有训练子集被基本正确分类(避免全部被正确分类,防止过拟合)。
剪枝:避免过拟合,使模型具有更好的泛化能力。
特征选择
通过信息增益和信息增益比选择特征。
信息增益
熵:熵表示的是随机变量的不确定性。
或
随机变量的取值等概率分布的时候,相应的熵最大(即随机变量的不确定性最大)。
条件熵:
当熵和条件熵中的概率由数据估计得到时,则为经验熵和经验条件熵。由真实值计算所得为真实熵。
信息增益:得知特征X而使类Y的信息的不确定性减少的程度。,D为训练数据集。
由于增加了A特征,随机变量变得更加确定了。因此,哪个特征带来的信息增益越大,就应该选择哪个特征作为最有特征。这就是信息增益的作用。