决策树的几何理解

本文探讨了决策树的本质——对多维数据空间的分割。通过几何视角理解,树的深度、分支、叶子节点和剪枝操作分别对应空间的维度选择、分割次数、空间分区和局部合并。剪枝能避免过拟合,而数值归一化在决策树中并不重要,因为数据的压缩不影响分割。不同的维度选择和分割位置会导致多种决策树,且过拟合是因为分割过度精细。决策树适用于目标特征在数据中明显聚类的问题,难以发现隐藏的特征间关系。
摘要由CSDN通过智能技术生成

决策树的几何理解

 

一、决策树的实质是对空间的分割

对于一个多维数据,可以将它的每一个属性看成一个维度。如一个二维数据可以看成一个平面,一个三维数据可以看成一个立方体。各属性的取值表示标签的空间位置。那么决策树的每一次测试可以看成对某一维空间的一次分割。

1、树的深度则指的是取多少个维度进行分割,显然树的深度不能超过属性个数,因为属性个数意味着维度,你不允许对一个三维物体从第四维开刀。

 

2、树的分支个数,指的是你对一个维度“切了几刀”(更精确的是,树的分支个数减一是你的“刀数”。

因为一刀分两段,两刀分三段。。

 

3、树的叶子节点个数本质是你把空间分割成了几份。

 

4、剪枝意味着对分割空间的合并。

剪枝的意义:

从上文我们知道决策树的每一次对空间的分割都是“贯穿”的,可以理解成“一刀两段”。而“剪枝”则又将被分割的空间进行局部的“缝补”。这种“缝补”不是任意的,只能“缝补”原本就“相邻”的空间。

 

举个分类问题的例子,我们现在需要根据已有三维数据把目标分成两类。我们不妨把我们的三维数据想象成一个空间立方体(如一个石块),把任务理解成:通过不断的分割,找到数据里属于“维纳斯的部分”和“不属于维纳斯的部分”(对应任务的“分成两类”)

 

好了,我们现在成功把一个二分类问题想象成把石块雕刻成维纳斯的过程。

 

如果没有剪枝过程,决策树最终得到的是“方块状”的空间。显然我们永远不可能得到一个维纳斯的形状。如果有了剪枝过程,意味着我们不但能切割“石块”也能把相邻的“石块”又“拼接”到一起。理论上只要我们有耐

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值