西瓜书第四章学习笔记

文章介绍了决策树的原理,特别是如何利用信息熵来选择最优划分特征。通过减少信息熵,找到最佳分类路径。同时,讨论了针对连续数据的处理方法,如设置阈值,以及决策树的剪枝技术,包括先验和后验剪枝,以提高模型的泛化能力。
摘要由CSDN通过智能技术生成

第四章主要讲述的是用一棵树来进行数据的分类,这种树就叫决策树。

在考虑多个因素决定的类别时,本章采用了一种采用信息熵的思想来进行划分。

信息熵是一种描述信息混乱程度的度量,未知的东西,从直观上来说,我们对某一件事务知道的越多,那么这件事务在我们认知中的可能性越少,这样,信息的混乱程度也越少。信息熵就是类似于该种思想。

那么决策树为什么要用到这种思想呢,怎么使用?

现在思考这么一个场景,一堆数据和将这堆根据某种规则分类过一次的数据,是不是分类过一次的数据我们心底更有数。同样的道理,我们如果将数据进行一次分类,那么,他的信息熵必然不会大于原始的信息熵,如果原始信息熵于现有信息熵的差值大于0,说明我们本次分类是有效的,减少了无用的信息。所以,只需要在每次分类中取能使信息熵降低最大的哪个因素即可。

当然,分类标准也不止这一种,比如增益率和基尼指数也可以。

分类好的数据不一定能实际运用,因为我们是拿训练数据来进行分类得到的模型,不一定可以代表真实情况,所以,还需要根据测试数据来对数进行一些剪枝处理,分为先验和后验两种,也就是从上往下看和从下往上看两种。

以上的模型是基于离散的结果得到的,但如果说是连续的结果呢,我们能直接采用连续数据的采样点来进行训练决策树吗?

答案当然是否定的,采样点采的数据可能往前往后偏移一点点依然和该采样点是一类,所以直接采用该采样点数据是不行的。对此,文章提出了一种阈值的设置方法,即取中间值。

最后多变量决策树向我们展示了经过决策树后在空间上已经具有了边界,我们只需要对这些边界进行拟合即可进行实际运用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值