哈工大机器学习复习总结

最新推荐文章于 2021-06-19 11:07:02 发布

墨色为著

最新推荐文章于 2021-06-19 11:07:02 发布

阅读量3.7k

点赞数 13

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fewjioqpfjeiowph/article/details/83932973

版权

决策树

例子：税务欺诈检测问题

决策树可以表示输入属性的任何函数

注意决策树的泛化能力

同一个训练数据集，可以有多棵决策树与其一致

下面介绍如何构造最优的决策树：Top-Down的决策树归纳算法

每一个内结点可以看成用来分离数据集的属性，我们需要找到分离效果最好的属性并且作为决策属性赋值给当前结点
为每一个取值创建一个儿子结点，把相应的训练样本分到叶结点
如果训练样本被很好的分类，则停止，否则在新的叶结点上重复上述过程

（这里是我自己的理解，大家想看具体的可以看老师的ppt或者参考资料，如果有问题也欢迎指出）

决策树的归纳其实是基于贪心策略，基于一个可以最优化某项准则的属性来切分数据集，后面会看到这个准则是什么

问题来了，如何确定最好的切分？

Idea：好的属性切分是将示例集合分成若干子集，最理想情况是将“正例”和“反例”完全分开到不同的集合里。

作为贪心搜索的思想，我们更倾向节点上的数据具有同质（homogeneous）类别分布

上图中左图就是具有同质性，低混杂度的切分，右图则相反。

为了确定最好的切分方式，我们需要对结点混杂度进行测量，引出熵（Entropy）的概念：

对于一个随机变量X的熵H(X)
H(X)是对从X随机采样值在最短编码情况下

最低0.47元/天解锁文章

关注

13
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
哈工大机器学习复习总结

决策树例子：税务欺诈检测问题决策树可以表示输入属性的任何函数注意决策树的泛化能力同一个训练数据集，可以有多棵决策树与其一致下面介绍如何构造最优的决策树：Top-Down的决策树归纳算法每一个内结点可以看成用来分离数据集的属性，我们需要找到分离效果最好的属性并且作为决策属性赋值给当前结点为每一个取值创建一个儿子结点，把相应的训练样本分到叶结点如果训练样本被很好的分...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。