1.分类决策树介绍:
决策树是树模型的基础形式。它包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果(分为多少类就有多少个子节点)。决策树学习的目的在于产生一颗泛化能力强的决策树。
决策树的优点:(1):直观易理解,符合人认知事物的过程。(2)应用范围广,分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限制。一般还会通过限制树的高度,或者叶子节点上样本的数量来防止过拟合。
2.决策树停止的三种情况:
- 当前节点所包含的所有样本都属于同一类,无需再划分。
- 当前节点上所有属性的值都相同,不能再划分。此时将 类别设置为当前节点上所含样本最多的类别。
- 当前节点包含的样本集为空,无法划分。此时将类别设置为当前节点父节点上所含样本最多的类别。
3.划分方法
依照划分方法的不同,分为三种算法,ID3,C4.5,CART。根本问题在于如何选择最优的划分属性。进一步理解就是说经过这个节点划分后的节点纯度达到最高。
3.1 ID3算法
该算法依据信息增益计算。
信息熵计算: E n t ( D ) = − ∑ k = 1 y p k l o g 2 p k Ent(D)=-\sum_{k=1}^{y}p_klog_2p_k Ent(D)=−∑k=1ypklog2pk
其中p_k代表当前样本中第k类样本所占的比例。Ent(D)的值越小,则D的纯度越高。
假设利用属性a进行分类,a有v个分支节点。其中每个分支节点上的样本数目为 D v D^v Dv。这样就可以在每个分支节点上计算出信息熵。然后给每个分支节点赋予权重 D v D \frac{D^v}{D} DDv,即节点上样本数目越多,则该节点的权重越大。这样就可以得到划分后的信息熵
∑ v = 1 V