回归树的理解

参考<<机器学习实战第9章>>

假设要对一个数据进行分类,这个数据包含特征和标签,那么我们要做的是根据特征来区分标签,也就是结果。

也就是说,我们已经有了这些特征,所以先省去了特征提取这一步而直接进入主题,就假设这些特征都是很重要的。一个特征就可以区分点东西出来了。嗯,这句大概就可以得出一点信息了。

第一个是如何确定第一个特征是重要的。

在我们不知道的情况下,那么就只能试错了,也就是说,我们都将利用某个特征来进行分类,即这个数据集会被分成两个,由于特征有n列(假设),每个特征对应不同的特征值假设有m(假设,可以不同),那么每次决定要选举出这个特征将一个数据集分成两个时,我们进行了n*m次的尝试,选举出最好的一个。

这里的最好,按照现在的情形,我们就选误差最小的一个。那么怎样计算误差?对于每次尝试后的分类,我们都会得到两组的数据,我们是可以算出两组数据的方差和的,这个最小的对应的特征就是我们想要的特征了。

然后依次类推,即用递归的方法可以得到我们想要的结果。

然后就会考虑到这样的一个问题,数据集是否可以一直分下去?这里就需要考虑误差阈值以及深度的问题,利用这两个来停止继续切分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值