回归树的理解

最新推荐文章于 2024-07-02 14:27:14 发布

new_light

最新推荐文章于 2024-07-02 14:27:14 发布

阅读量3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/new_light/article/details/40351101

版权

参考<<机器学习实战第9章>>

假设要对一个数据进行分类，这个数据包含特征和标签，那么我们要做的是根据特征来区分标签，也就是结果。

也就是说，我们已经有了这些特征，所以先省去了特征提取这一步而直接进入主题，就假设这些特征都是很重要的。一个特征就可以区分点东西出来了。嗯，这句大概就可以得出一点信息了。

第一个是如何确定第一个特征是重要的。

在我们不知道的情况下，那么就只能试错了，也就是说，我们都将利用某个特征来进行分类，即这个数据集会被分成两个，由于特征有n列（假设），每个特征对应不同的特征值假设有m(假设，可以不同)，那么每次决定要选举出这个特征将一个数据集分成两个时，我们进行了n*m次的尝试，选举出最好的一个。

这里的最好，按照现在的情形，我们就选误差最小的一个。那么怎样计算误差？对于每次尝试后的分类，我们都会得到两组的数据，我们是可以算出两组数据的方差和的，这个最小的对应的特征就是我们想要的特征了。

然后依次类推，即用递归的方法可以得到我们想要的结果。

然后就会考虑到这样的一个问题，数据集是否可以一直分下去?这里就需要考虑误差阈值以及深度的问题，利用这两个来停止继续切分。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。