一、概述
决策树算法是一种被广泛使用的分类算法,它借助于树的分支结构实现分类(可以是二叉树或非二叉树),树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象,叶子节点表示对象所属的预测结果。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
二、决策树ID3算法
(一)特征选择方法
信息论中的熵,度量了事物的不确定性,熵值越大,表明事物越不确定。随机变量X的熵的表达式为:
![924cc2e34ff59dff47f5c32e69719158.png](https://img-blog.csdnimg.cn/img_convert/924cc2e34ff59dff47f5c32e69719158.png)
其中n代表X的n种不同的离散取值,代表X取值为i的概率,log为以2或者e为底的对数。例如,X有2个可能的取值,且这两个取值的概率都为1/2,则X的熵值为:
![4d2c2c8572c5532485b6818dd67aa456.png](https://img-blog.csdnimg.cn/img_convert/4d2c2c8572c5532485b6818dd67aa456.png)
变量X和Y的联合熵表达式为: