1.决策树
(1)决策树定义
分类决策树模型是一种描述对实例进行分类的树形结构。决策树是一种由节点和有向边组成的树形结构,节点分为 三种:
①根节点:没有入边,但有零条或多条出边,包括全部实例的集合;
②内部节点:恰有一条入边和两条或多条出边,表示一个特征或属性;
③叶节点:恰有一条入边,但没有出边,表示一个类;
(2)决策树思想
在决策树中,每个内部节点包含一个属性测试条件,每个叶节点赋予一个类标号,用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点;这时,每一个子节点对应着其特征的一个取值。如此递归的对实例进行测试并分配,直至到达叶节点,最后将实例分配到叶节点的类中。
决策树模型
(3)决策树学习过程(补上公式)
①特征选择:决定用哪个特征来划分特征空间(选取对训练数据具有分类能力的特征),特征选择规则通常是信息 增益或信息增益比。
注:熵、信息熵、信息增益的理解
熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:熵 - 条件熵