分类:决策树——常用算法说明

       决策树模型很早就出现了,当我们使用一连串的 “if...else...” 语句时,就已经具备了决策树的思想了,不过当真正去构建决策树时,就要考虑哪个先 if、哪个后 if,采用什么样的标准来支持我们选定先 if的属性等,这部分内容在《分类:决策树——树的生长》中已经说明了。早期的决策树算法(如ID3算法)的处理能力有限,只能在特定情形下使用,后来经过不断发展,出现了一些新的算法(如CART),处理能力大大提高,使得决策树模型的应用更加广泛。本文就常见的ID3、C4.5、CART算法做一些记录说明。

1.    ID3算法

       ID3算法是Quinlan教授在上个世纪70年代提出的,算法引入信息论中熵的概念,并将信息增益作为划分属性的度量,这一做法简洁高效,在当时影响较大。关于信息熵

                                                                           Ent(D)=-\sum_{i=1}^{k}p_{i}log_{2}p_{i}

定义的由来,这里简单的做一下介绍。假设一棵二分类决策树上某一节点包含有N个样本,其中正类样本有N_{1},负类样本有N_{2}个,(N=N_{1}+N_{2}),则样本的类别组合情况有C_{N}^{N_{1}}种。从样本属性与类别的对应关系上,如何看待C_{N}^{N_{1}}呢?也即是不参考样本的属性值时,我们认为的选定N_{1}个样本为正例样本。很显然,在给定N值时,C_{N}^{N_{1}}越小就越表明该结点上样本类别越趋向于单一,结点误分类率越小。下面我们对C_{N}^{N_{1}}做一些分解

                                                                               C_{N}^{N_{1}}=\frac{N!}{N_{1}!N_{2}!}                                             (1)

N\rightarrow \infty时,依据Stirling公式,有

             

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值