分类决策树考虑了经验风险吗_决策树分类准确率极限的研究

本文探讨了决策树模型的分类准确率极限问题,采用最大分类树作为分析工具,研究了经验风险和结构风险对准确率的影响。通过对四种分布条件的定理证明,揭示了分类准确率极限的存在性,并通过实验验证了理论的正确性。此外,文章还指出了决策树的优缺点,如模型复杂度和业务指导性的权衡。
摘要由CSDN通过智能技术生成

222

Engineering

10

o

2007

5

Ma

决策树分类准确率极限的研究

Computer

V

l.33

No.10

33

y

1

,陈俊亮

1

,张舒博

2

(

1.

北京邮电大学计算机科学与技术学院,北京

100876

2.

中国电信北京研究院决策研究部,北京

100035

)

要:

采用最大分类树作为分析经验风险与结构风险的工具,对决策树分类准确率极限进行了研究。针对决策树模型的分类效果难以客

观评价的问题,讨论了决策树分类准确率极限的存在条件,给出了求出该极限的方法。以最大分类树作为分析工具,提出了在经验风险和

结构风险

4

种分布条件下分类准确率极限是否存在的

4

个定理,并从机器学习理论和工程建模实践

2

个角度进行了讨论。实验验证了该理

论的正确性。

关键词:

决策树;分类准确率;极限;经验风险;结构风险

Research on Classification Accuracy Limit of Decision Tree

NIU Kun

1

, CHEN Junliang

1

, ZHANG Shubo

2

(

1. School of Computer Science and Technology, Beijing University of Posts and Telecommunications,

Beijing

100876;

2. Department of Strategy Research, Beijing Research Institute of China Telecom., Beijing 100035

)

Abstract

Taking maximum classification tree as a tool to analyze empirical risk and structural risk, this paper addresses the problem of

classification accuracy limit of decision tree. Aiming at the difficulty to estimate the classification effectiveness of decision tree externally, it

discusses the existence condition of classification accuracy limit and presents the method to get it. It points out four theorems which demonstrate the

existence of classification accuracy limit under four distribution conditions of empirical risk and structural risk with analysis from machine learning

theory and practical modeling. The theorems are validated from experiments on ten public datasets.

Key words

Decision tree; Classification accuracy; Limit; Empirical risk; Structural risk

2007

能及识别技术·

文章编号:

1000

3428(2007)10

0222

03

文献标识码:

A

中图分类号:

TP18

(

)

(

,

(

,

))

(

,

)

·人工智

归纳学习的本质是从给定的某个概念的一系列已知的正

例和反例中归纳出一个通用的概念描述,其一般的操作是泛

化和特化。

决策树是以实例的归纳为基础的学习方法,它着眼于从

一组无序无规则的事例之中推理出树形式的分类规则,它采

用自顶向下的递归方式,在每个内部结点进行属性值的比较

并判断该结点以下的分支,在叶子结点得到分类的结论

[1]

目前流行的决策树算法主要是对于各种经典算法的补充和改

进,学者们致力于以下几个方面的研究:

(1)

对于决策树选择

属性原则的讨论

[2]

(2)

对于连续变量如何离散化的讨论

[3]

(3)

对于剪枝策略的讨论

[4]

(4)

对于复杂数据类型的决策树建

模方法的讨论

[5]

对决策树的评价一般采用分类准确率衡量其有效性,使

用建树时间和树结点数来衡量决策树的复杂程度。

然而,

“决

策树分类准确率是否存在极限”

“如果存在,这个极限如何

求出”等问题仍然没有确定的答案,工程师们也难以评价自

己的模型是优秀还是拙劣,评价决策树效果缺乏一个标杆。

本文针对该问题,分别就决策树模型的经验风险和结构风险

是否存在的

4

种情况进行讨论,给出决策树模型分类准确率

极限的存在理论。

1

决策树分类准确率的极限

1.1

决策树与最大分类树

最大分类树

[3]

是包含了任意属性值组合作为叶子结点的

分类器,没有一定的结构,每个属性占据最大分类树的某一

层。最大分类树的叶子节点是完备的,而决策树实际上是一

种在逻辑上对最大树进行重新组织和修建的分类器,它建立

了一个有效的搜索机制并作出判决,决策树算法间的差异仅

是属性选择策略和剪枝策略的不同。

最大分类树一般不能用来预测,

它存在一些明显的劣势:

(1)

过于庞大;

(2)

过于精细的划分对噪声数据敏感;

(3)

最大分

类树无法形成规则,对业务问题缺乏指导。当然,决策树也

并非完美:可能导致模型从技术上来说是优秀的,却缺乏业

务指导;另外,决策树在泛化的过程中存在一些判决错误。

1.2

经验风险与结构风险

学习问题一般可以表示为变量

y

x

之间存在的未知依赖

关系,

即遵循某一未知的联合概率

F(x,y)

。机器学习问题就是

根据

n

个独立同分布观测样本:

(x

1

,y

1

)

,

(x

2

,y

2

)

,…,

(x

n

,y

n

)

,在一

组函数

{

f(x,w)

}

中求一个最优的函数

f(x,w

0

)

,对依赖关系进行

使

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值