概念
定义在特征空间与类空间上的条件概率分布,即给定特征条件下类的条件概率分布;也可以认为是if-then规则的集合
优点
模型具有可读性,分类速度快。
模型
首先,介绍一下决策树模型:
由结点和有向边组成,结点又可分为内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。
决策树与条件概率分布
决策树所表示的条件概率分布由各个单元给定条件下的类的条件概率分布组成。若X表示特征的随机变量,取值于给定划分下单元的集合,Y表示类的随机变量,取值于类的集合,则该条件概率分布可以表示为P(Y|X)。
各叶结点(单元)上的条件概率往往偏向于某一类,即属于某一类的概率较大。
决策树本质
从训练数据集中归纳出一组分类规则。
步骤
决策树的学习常包含三个步骤:
特征选择
决策树的生成