第四章决策树(代码待补)

最新推荐文章于 2020-12-30 21:29:15 发布

遨游的菜鸡

最新推荐文章于 2020-12-30 21:29:15 发布

阅读量491

点赞数

分类专栏：机器学习周志华(西瓜书)

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34405401/article/details/104908262

版权

机器学习周志华(西瓜书) 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

题

在这里插入图片描述

4.1

决策树停止生成的三个条件：
1.当前结点包含的样本全属于同一类别，无需划分
2.当前属性集为空，或是所有样本在所有属性上取值相同，无法划分
3.当前结点包含的样本集合为空，不能划分
而题目中特征向量完全相同但标记不同的，就属于第二种情况里的所有样本在所有属性上取值相同，无法划分，这时候会将样本数最多的类返回，以后训练数据用此决策树预测时都返回同一个类，因此若要保证训练误差为0，那么一定不能存在特征向量完全相同但类不同的数据，即不能存在冲突数据。（因为在用训练数据做测试时，特征向量相同一定会被归到一个类里，但是实际中他们特征向量相同，但类不同，这样就有了误差）

4.2

训练样本是有限的，并不能代表整个样本空间，因此单纯的使用最小训练误差只是对这个训练集数据效果不错，但是对整个样本空间的数据来讲是极其容易引起过拟合的。因为决策树里挑选划分特征是为了挑出对分类影响大的特征，但训练误差这个有很强的偶然性，不能代表一般规律。

4.3

4.4

4.5

4.6

4.7

4.8

4.9

在这里插入图片描述

4.10

遨游的菜鸡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第四章决策树(代码待补)

题4.1决策树停止生成的三个条件：1.当前结点包含的样本全属于同一类别，无需划分2.当前属性集为空，或是所有样本在所有属性上取值相同，无法划分3.当前结点包含的样本集合为空，不能划分而题目中特征向量完全相同但标记不同的，就属于第二种情况里的所有样本在所有属性上取值相同，无法划分，这时候会将样本数最多的类返回，以后训练数据用此决策树预测时都返回同一个类，因此若要保证训练误差为0，那么一...
复制链接

扫一扫

专栏目录

遨游的菜鸡

博客等级

码龄8年

154
原创

137
点赞

716
收藏

81
粉丝

关注

私信

热门文章

分类专栏

python 26篇
深度学习 7篇
MySQL 4篇
paper 6篇
主动学习 4篇
pytorch 14篇
杂记 16篇
机器学习 7篇
算法与数据结构 9篇
项目实训 9篇
c++ 9篇
机器学习周志华(西瓜书) 11篇
前端 4篇
requests 5篇
scrapy 5篇
CS224N NLP 5篇
统计学习方法 11篇
tensorflow 12篇
kaggle 2篇

最新评论

主动学习框架
境界面上的双曲线: 博主，我想请问一下，如果我们自己建立一个深度学习模型与主动学习器结合，在不断往训练集里面加新的数据的过程中，我们如何才能知道自己的深度学习模型里的参数才是最优的呢？因为单独使用深度学习的时候，我们会多次训练调参以尽量达到最优参数，但是与主动学习结合加新数据的过程中，我们并不知道自己的模型参数是不是最优的，如果在不断加新数据的过程中调参数的话，感觉前后查询数据的模型就变了（相同模型不同参数）
主动学习框架
境界面上的双曲线: 请问一下你知道结果了吗？回归模型是不是这些查询策略都不适用啊？
主动学习框架
fighting_!: 请问，使用modAL的时候若是回归任务就需要自己写查询策略是吗？我看modAL库下modAL.uncertainty下都是用于分类的
python 用for i in range(10)生成列表
扶桑照槛: 楼主太棒力
c++按位运算
小小神射手: 感谢博主详细分享了c++关于二进制位运算的知识，知识点讲解的非常实用，读完后刷新了我对二进制位运算的认知。这篇文章是个妥妥的干货！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。