决策树是一个树结构(可以是二叉树或非二叉树),其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个输出类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
决策树学习通常包含这几个方面:特征选择、决策树生成、决策树剪枝、缺失值/异常值处理、决策树集成学习。
到目前为止我们仅讨论了基于离散属性来生成决策树,现实学习任务中常常遇到连续属性,以及数据中缺失问题。
目录
连续值处理
基本思路:连续属性离散化,常见做法:二分法(这是C4.5决策树算法中采用的机制)。
对于连续属性a,我们可考察包括 n-1 个元素的候选划分集合(n 个属性值可形成 n-1 个候选点):


示例1:

示例2:

对于数据集中的属性“密度”,决策树开始学习时,根节点包含的17个训练样本在该属性上取值均不同。我们先把“密度”这些值从小到大排序:
根据上面计算 的公式,可得:

最低0.47元/天 解锁文章
1977

被折叠的 条评论
为什么被折叠?



