1.什么是决策树
所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个特征的测试,树的分支代表该特征的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层是就是根节点。
2.学习过程
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。这一过程对应着特征空间的划分,也对应着决策树的构建。
决策树学习常用的算法有ID3、C4.5和CART算法。
3.基本定义
由于ID3算法和C4.5算法内部都涉及到熵,所以先对熵及其相关概念作一个简单介绍。
熵:熵是表示随机变量不确定性的度量。随机变量的熵值越大则越不稳定。其公式如下:
H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^{n}p_{i}logp_{i}
H(X)=−
i=1
∑
n
p
i
logp
i
其中,X XX为随机变量,n nn为随机变量X XX的不同取值个数,p i = P ( X = x i ) p_{i}=P(X=x_{i})p
i
=P(X=x
i
)。
条件熵