决策树面试整理

决策树是一种基本的分类与回归方法。这里主要讨论用于分类的决策树。

优点:具有可读性,分类速度快;

决策树学习通常包括三个步骤:特征选择、决策树的生成和决策树的修剪;

 

 

决策树学习 的思想来源主要是ID3算法、C4.5算法以及CART算法

 

面试问题1:什么是决策树?

答:决策树是一种分类和回归的基本模型,可从三个角度来理解它,即:

  • 一棵树
  • if-then规则的集合,该集合是决策树上的所有从根节点到叶节点的路径的集合
  • 定义在特征空间与类空间上的条件概率分布,决策树实际上是将特征空间划分成了互不相交的单元,每个从根到叶的路径对应着一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。实际中,哪个类别有较高的条件概率,就把该单元中的实例强行划分为该类别。



作者:milter
链接:https://www.jianshu.com/p/fb97b21aeb1d
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

(1)决策树模型:

分类决策树模型是一种描述对实例进行分类的树形结构。决策树有节点(node)和有向边(directed edge)组成。节点有两种类型:内部节点和叶节点。内部节点标识一个特征或属性,叶节点标识一个类;

 

用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子节点;这时,每一个子节点对应该特征一个取值,如此递归低对实例进行测试并分配,直至达到叶子节点。最后实例被分到叶节点的类中。

 

(2)决策树的if-then规则

可以将决策树看成一个if-then规则的集合;规则如下:将决策树的根节点到叶节点的每一条路径建立一条规则;路径上内部节点的特征对应着规则的条件,而叶节点的类对应着规则的结论。if-then规则集合有一个重要的性质:互斥并且完备;这就是每一个实例都被一条路径或者一条规则所覆盖,而且只被一条路径或者一条规则所覆盖。

 

(3)决策树与条件概率分布:

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。将特征空间划分为互不相交的单元区域,并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率有各个单元给定条件下的类的条件概率分布组成。假设X为标识特征的随机变量,Y为表示类的随机变量,那么这个条件概率分布可以表示为P(Y|X)。X取值给定划分下单元的集合,Y取值类的集合。

 

下图表示了特种空间的一个划分。大正方形表示特征空间。这个大正方形被若干个小矩形分割,每个小矩形表示一个单元。特征空间划分上的单元构成了一个集合,X取值为单元的集合。假设只有两类正类负类,Y=+1 -1;小矩形数字表示单元的类。第二个图表示给定条件下类的条件概率分布。P(Y=+1|X=c)>0.5时属于正类,实际上对应的就是矩形框的面积。

 

 

 

面试问题2:和其他模型比,它的优点?

答:主要的优点有两个:

  • 模型具有可解释性,容易向业务部门人员描述。
  • 分类速度快

当然也有其他优点,比如可以同时处理类别数据和数值数据。在运用分类决策树分类时,我们的数据一般会进行离散化

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值