决策树梳理

决策树

martin


基本概念

一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点,所以决策树相当于多叉树。叶节点对应于决策结果,其他每个结点则对应与一个属性测试,每个节点包含的样本集合根据属性测试的结果被分到子节点中。决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力的决策树,基本思想遵循“分而治之”的策略。

决策树的生成是一个递归过程。在决策树算法中有三种情形会导致递归返回:

  1. 当前节点包含的样本全部属于同一个类别,无需划分。
  2. 当前属性集为空,或是所有样本在所有属性集上取值相同,无法划分。此时,把当前节点标记为叶节点,并将其类别设定为该节点所含样本最多的类别。
  3. 当前节点包含的样本集合为空,不能划分。此时,同样把当前节点标记为叶节点,但将其类别设定为其父节点所含样本最多的类别。

注意:2和3不同,2是后验概率,3是把父节点的样本分布作为当前节点的先验概率。

下面给出一个决策树的例子:

dt-2.png-16.3kB

决策树相当于对特征空间进行划分,如下:

dt-1.png-7.1kB

也就是说,决策树的每条路径对应于特征空间的每个区域。对于决策树主要有以下几种:ID3,C4.5主要应用于分类任务;CART树,主要应用于预测任务,下面将逐个介绍。


ID3

对于之前给出的决策树的节点划分在ID3中有特定的方法,ID3中节点划分所衡量的指标是:信息增益。

E(D)=k=1ypklog2pk

aGain(D,a)=E(D)v=1v|Dv||D|E(Dv)

一般而言,信息增益越大,则意味着使用属性 α 来进行划分所获得的的“纯度提升”越大。因此,我们可用信息增益来进行决策树的划分属性选择。

给一个数据集,我们在这个数据集上来进行ID3决策树的生成:

编号 色泽 根蒂 敲声 纹理 脐部 触感 好瓜
1 青绿 蜷缩 浊响 清晰 凹陷 硬滑
2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑
3 乌黑 蜷缩 浊响 清晰 凹陷 硬滑
4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑
5 浅白 蜷缩 浊响 清晰 凹陷 硬滑
6 青绿 稍蜷 浊响 清晰 稍凹 软粘
7 乌黑 稍蜷 浊响 稍糊 稍凹 软粘
8 乌黑 稍蜷 浊响 清晰 稍凹 硬滑
9 乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑
10 青绿 硬挺 清脆 清晰 平坦 软粘
11 浅白 硬挺 清脆 模糊 平坦 硬滑
12 浅白 蜷缩 浊响 模糊 平坦 软粘
13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑
14 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑
15 乌黑 稍蜷 浊响 清晰 稍凹 软粘
16 浅白 蜷缩 浊响 模糊 平坦 硬滑
17 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑

然后,我们要计算出当前属性集合 { } 中每个属性的信息增益。

先计算根节点的信息熵:

E(D)=k=12pklog2pk=(817log2817+917log2917)=0.998

计算属性“ ”的信息增益,它有3个可能取的值: { 绿} ,分别记为:

D1(=绿) ,包含编号为 { 1,4,6,10,13,17} 6个样例,于是 p1=36,p2=36
D2(=) ,包含编号为 { 2,3,7,8,9,15} 6个样例,于是 p1=46,p2=26
D3(=) ,包含编号为 { 5,11,12,14,16} 5个样例,于是 p1=15,p2=45
有了上面的信息就可以求该特征的每个属性的信息熵了:

E(D1)=36log2(36)36log2(36)=1.000

E(D2)=46log2(46)26log2
  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
科技资讯 2013 NO.30 SCIENCE & TECHNOLOGY INFORMATION 信 息 技 术 11 科技资讯 SCIENCE & TECHNOLOGY INFORMATION 大数据时代业已到来, 当今世界正处 在一个数据爆炸的时代。 伴随着多媒体、 云 计算、 物联网、 社交网络等技术的发展,以 及天文观测、 空间地理、 金融分析等各领域 每天都在产生巨量的数据,这些数据如此 庞大,其规模、 其涌现速度和其处理难点超 出目常规技术能管理、 处理和分析的能 力[1]。 一般来说,大数据具有量大(Volume)、 流动性大(Velocity),种类多(Variety),分布 式(distributed)、 非一致(nonuniformity)等特 性,这些特点决定了在大数据时代,我们传 统的数据处理技术必须有革命性的变化, 包括数据的存储与组织方式、 计算方法、 数 据分析,而对大数据的智能分析技术将尤 为重要。 1 几种传统智能数据分析方法的比较 大数据智能分析需要有新的理论和技 术的突破,但它与传统的智能数据分析方 法必定还有延续。 传统的数据分析领域,如 知识库系统、 数据仓库、 数据挖掘等已经积 累了很多优秀的理论和技术,下面对其中 的一些典型理论和技术的梳理。 1.1 决策树 决策树(Decision Tree)是在已知各种情 况发生概率的基础上,通过构成决策树来 求取净现值的期望值大于等于零的概率, 评价项目风险,判断其可行性的决策分析 方法,是直观运用概率分析的一种图解法, 它是建立在信息论基础之上对数据进行分 类的一种方法。 首先通过一批已知的训练 数据建立一棵决策树,然后采用建好的决 策树对数据进行预测。 决策树的建立过程 是数据规则的生成过程,因此,这种方法实 现了数据规则的可视化,其输出结果容易 理解,精确度较好,效率较高,缺点是难于 处理关系复杂的数据。 常用的方法有分类 及回归树法、 双方自动交互探测法等。 其中 分类树主要用于数据记录的标记和归类, 回归树主要用于估计目标变量的数值[2]。 1.2 关联规则 关联规则分析发现大量数据中项集之 间有价值的关联或相关联系,就是要建立 形 如 X Y 的 蕴 涵 式 , 其 中 X 和 Y 分 别 称 为 关 联 规 则 的 先 导 ( an te ce d en t) 和 后 继 (consequent)。 关联规则一般应用在事物数 据库中,其中每个事物都由一个记录集合 组成。 这种事物数据库通常都包括极为庞 大的数据,因此,当的关联规则发现技巧 正努力根据基于一定考虑的记录支持度来 削 减 搜 索 空 间 。 关 联 规 则 的 常 见 算 法 有 Apriori算法、 基于划分的算法、 FP-树频集 算法等。 1.3 粗糙集(Rough Sets) 粗糙集智能数据分析是粗糙集理论中 的主要应用技术之一,是一种基于规则的 数据分析的方法。 其思想主要来自统计学 和机器学习,但并不是这两种工具随意的 应用,它以粗糙集理论为基础,以数据表所 表示的信息系统为载体,通过分析给定数 据集的性质、 粗糙分类、 决策规则的确定性 以及覆盖度因子等过程,从中获取隐含的、 潜在有用的知识。 用粗糙集理论进行数据分析主要有以 下优势:它无需提供对知识或数据的主观 评价,仅根据观测数据就能达到删除冗余 信息;非常适合并行计算、 提供结果的直接 解释。 1.4 模糊数学分析 用模糊(Fuzzy sets)数学理论来进行智 能数据分析。 现实世界中客观事物之间通 常具有某种不确定性。 越复杂的系统其精 确性越低,也就意味着模糊性越强。 在数据 分析过程中,利用模糊集方法对实际问题 进行模糊评判、 模糊决策、 模糊预测、 模糊 模式识别和模糊聚类分析,这样能够取得 更好更客观的效果。 模糊分析方法不足主要表现在: 用户 驱动,用户参与过多;处理变量单一,不能 处理定性变量和复杂数据,如非线性数据 和多媒体数据;发现的事实或规则是以查 询为主要目的,对预测和决策影响不大,而 且过分依赖主观的经验。 1.5 人工神经网络 人工神经网络是一种应用类似于大脑 神经突触联接的结构进行信息处理的数学 模型。 该模型由大量的节点(或称神经元)之 间相互联接构成。 每个节点代表一种特定 的输出函数,称为激励函数(activation function)。 每两个节点间的连接都代表一个 对于通过该连接信号的加权值,称之为权 重,这相当于人工神经网络的记忆。 网络的 输出则依网络的连接方式,权重值和激励 函数的不同而不同。 而网络自身通常都是 对自然界某种算法或者函数的逼近,也可 能是对一种逻辑策略的表达。 典型的神经网络模型主要分三大类, 即馈式神经网络模型,反馈式神经网

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值