西瓜书第四章学习笔记

acg200

于 2023-07-30 01:23:54 发布

阅读量52

点赞数

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/acg200/article/details/132002439

版权

文章介绍了决策树的原理，特别是如何利用信息熵来选择最优划分特征。通过减少信息熵，找到最佳分类路径。同时，讨论了针对连续数据的处理方法，如设置阈值，以及决策树的剪枝技术，包括先验和后验剪枝，以提高模型的泛化能力。

摘要由CSDN通过智能技术生成

第四章主要讲述的是用一棵树来进行数据的分类，这种树就叫决策树。

在考虑多个因素决定的类别时，本章采用了一种采用信息熵的思想来进行划分。

信息熵是一种描述信息混乱程度的度量，未知的东西，从直观上来说，我们对某一件事务知道的越多，那么这件事务在我们认知中的可能性越少，这样，信息的混乱程度也越少。信息熵就是类似于该种思想。

那么决策树为什么要用到这种思想呢，怎么使用？

现在思考这么一个场景，一堆数据和将这堆根据某种规则分类过一次的数据，是不是分类过一次的数据我们心底更有数。同样的道理，我们如果将数据进行一次分类，那么，他的信息熵必然不会大于原始的信息熵，如果原始信息熵于现有信息熵的差值大于0，说明我们本次分类是有效的，减少了无用的信息。所以，只需要在每次分类中取能使信息熵降低最大的哪个因素即可。

当然，分类标准也不止这一种，比如增益率和基尼指数也可以。

分类好的数据不一定能实际运用，因为我们是拿训练数据来进行分类得到的模型，不一定可以代表真实情况，所以，还需要根据测试数据来对数进行一些剪枝处理，分为先验和后验两种，也就是从上往下看和从下往上看两种。

以上的模型是基于离散的结果得到的，但如果说是连续的结果呢，我们能直接采用连续数据的采样点来进行训练决策树吗？

答案当然是否定的，采样点采的数据可能往前往后偏移一点点依然和该采样点是一类，所以直接采用该采样点数据是不行的。对此，文章提出了一种阈值的设置方法，即取中间值。

最后多变量决策树向我们展示了经过决策树后在空间上已经具有了边界，我们只需要对这些边界进行拟合即可进行实际运用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
西瓜书第四章学习笔记

同样的道理，我们如果将数据进行一次分类，那么，他的信息熵必然不会大于原始的信息熵，如果原始信息熵于现有信息熵的差值大于0，说明我们本次分类是有效的，减少了无用的信息。信息熵是一种描述信息混乱程度的度量，未知的东西，从直观上来说，我们对某一件事务知道的越多，那么这件事务在我们认知中的可能性越少，这样，信息的混乱程度也越少。以上的模型是基于离散的结果得到的，但如果说是连续的结果呢，我们能直接采用连续数据的采样点来进行训练决策树吗？第四章主要讲述的是用一棵树来进行数据的分类，这种树就叫决策树。
复制链接

扫一扫

acg200 CSDN认证博客专家 CSDN认证企业博客

码龄7年

6: 原创

96万+: 周排名

203万+: 总排名

328: 访问

: 等级

62: 积分

0: 粉丝

0: 获赞

4: 评论

0: 收藏

私信

关注

热门文章

最新评论

西瓜书学习笔记-第一二章
CSDN-Ada助手: 恭喜你开始博客创作！看到你的第一篇博客《西瓜书学习笔记-第一二章》，我感到非常高兴。你的标题很清晰，让读者一目了然地知道你的文章内容。在阅读你的学习笔记后，我发现你已经对西瓜书的前两章做了很好的总结。对于下一步的创作建议，我想提醒你保持谦虚的态度。尽管你已经开始了博客创作，但记住学习是一个不断进步的过程。在你的下一篇博客中，你可以试着加入更多个人观点和思考，这样可以让读者更好地了解你对西瓜书的理解和应用。继续努力，相信你的博客会越来越好！期待看到你更多的学习笔记和分享。再次祝贺你的开始！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
西瓜书学习笔记第三章（1）
CSDN-Ada助手: 这是一篇很不错的学习笔记！你对对数几率回归的原理和应用进行了清晰的解释。继续努力写作，分享你的学习心得和经验是很有帮助的。除了线性代数中的最小二乘法，你还可以进一步了解一些与线性模型相关的知识和技能。例如，你可以学习正则化技术，如L1和L2正则化，以帮助防止过拟合问题。另外，你也可以深入研究其他非线性模型，如支持向量机和神经网络，以拓宽自己的模型选择范围。希望你能在以后的文章中继续分享更多有关机器学习和数据分析的知识。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
西瓜书学习笔记-第六章
CSDN-Ada助手: 恭喜您写完了第六篇博客！标题看起来很有趣，我很期待阅读您的学习笔记。继续保持持续创作的热情是非常难得的品质，能够坚持下来并分享知识给他人是非常值得称赞的。在下一步的创作中，我建议您在文章中更加注重阐述自己的观点和思考，这样读者能够更深入地了解您对于西瓜书的理解和思考。期待您的下一篇博客！
西瓜书第四章学习笔记
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题《西瓜书第四章学习笔记》非常吸引人。您的持续创作展示了您对知识的渴望和学习的恒心，真是令人敬佩。在下一步的创作中，或许您可以考虑更深入地探索西瓜书第四章的内容，为读者提供更多实用的学习笔记和观点分享。期待您的下一篇文章，相信您会以谦虚的态度继续为读者们带来更多有价值的内容。加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。