86-决策树的局限性

最新推荐文章于 2022-12-10 14:00:51 发布

蓝子娃娃

最新推荐文章于 2022-12-10 14:00:51 发布

阅读量783

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41033011/article/details/109248292

版权

机器学习专栏收录该内容

89 篇文章 47 订阅

订阅专栏

决策树的局限性

这篇博客主要讨论决策树这种非参数的学习算法的局限性。

我们的第一个例子中，看到鸢尾花数据集的分类结果时，会看到决策边界都是横平竖直的，那么反映在二维图像上决策边界一定是和 $x$ 轴或者 $y$ 轴平行的。

在这里插入图片描述

因为对于决策树来说，每一次都是在某个维度上选某一个阈值进行划分，小于这个阈值进入一颗子树，大于这个阈值进入另一颗子树。所以这个决策边界对于这个二维平面来说，一定就是 $x$ 等于某一个值或者 $y$ 等于某一个值这样的函数，这样的函数显然是和坐标轴是平行的。

那么对于这样的决策边界，它一定是有局限性的。我举一个简单的例子，假设对下图中四个点来说，三个蓝色的点为一类，红色的点为另一类。

在这里插入图片描述

那么我们使用决策树来进行分类的话，可能分类的结果就是首先进行一个横向的分类，然后数据被分成上下两部分，上部分全是蓝色的点，所以上部分的信息熵和基尼系数都为 0，不用再进行划分了。

在这里插入图片描述

下半部分有一个红色点和蓝色点还可以再分，那么很可能就是这个样子：

在这里插入图片描述

那么最终我们形成的决策边界如下：

在这里插入图片描述

但是这样的一个决策边界有可能并不能真实反映数据的真实情况，毕竟对于这个数据来说有可能真正合理的决策边界是下面这样的一条斜线：

在这里插入图片描述

然而，对于决策树来说，永远不会产生这样一种斜线的决策边界。

更严重的是，假设我们的数据集是下面这个样子，依然是有两类。

在这里插入图片描述

现在这两类非常好区分。就是中间一条竖线即可。

如果我们的数据还是这样分布，但是它稍微有一些倾斜，可能是下面这样的：

此时，如果我们再使用决策树的话，划分的结果很有可能如下：

在这里插入图片描述

很有可能我们用一条斜线就能够很好的区分这两类，所以在上图中的决策边界两端一直延生下去到无穷的地方有可能分类就是错误的，所以这就是决策边界的局限性。

对于决策树还有另外一个局限性，其实个局限性对于大多数非参数学习算法都是成立的，就是对个别的数据特别敏感。下面就通过一个小例子观察一下。

在这里插入图片描述

具体代码见 86 决策树的局限性.ipynb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
86-决策树的局限性

决策树的局限性这篇博客主要讨论决策树这种非参数的学习算法的局限性。我们的第一个例子中，看到鸢尾花数据集的分类结果时，会看到决策边界都是横平竖直的，那么反映在二维图像上决策边界一定是和 xxx 轴或者 yyy 轴平行的。因为对于决策树来说，每一次都是在某个维度上选某一个阈值进行划分，小于这个阈值进入一颗子树，大于这个阈值进入另一颗子树。所以这个决策边界对于这个二维平面来说，一定就是 xxx 等于某一个值或者 yyy 等于某一个值这样的函数，这样的函数显然是和坐标轴是平行的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。