简介
定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。
决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。
决策树学习本质上是从训练数据集中归纳出一组分类规则,也可以说是由训练数据集估计条件概率模型。它使用的损失函数通常是正则化的极大似然函数,其策略是以损失函数为目标函数的最小化。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。
决策树的生成对应于模型的局部选择,决策树的剪枝对应于模型的全局选择。决策树的生成只考虑局部最优,相对地,决策树的剪枝则考虑全局最优。
特征选择
特征选择的准则通常是信息增益或者信息增益比。
首先是给出信息熵的计算公式 H(p)=−∑ni=1pilogpi ,熵越大,随机变量的不确定性就越大。公式中 pi 表示随机变量X属于类别 i 的概率,因此
条件熵的定义为: H(Y|X)=∑ni=1piH(Y|X=xi)