西瓜书习题 - 8.集成学习

IT斜杆青年

已于 2023-01-13 20:35:58 修改

阅读量9.5k

点赞数 19

分类专栏：西瓜书习题文章标签：集成学习决策树

于 2022-10-26 14:47:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdnshadow/article/details/127532350

版权

西瓜书习题专栏收录该内容

10 篇文章 375 订阅

订阅专栏

1.集成学习

1、下列关于集成学习描述错误的是哪个？

集成学习只能使用若干个相同类型的学习器
集成学习使用多个学习器解决问题
集成学习在许多比赛中取得了优异的成绩
集成学习在英文中是一个外来词

2、下列哪些学习器可以作为集成学习中的学习器？

支持向量机
决策树
神经网络
其他选项都可以

3、由若干个相同类型的学习器构成的集成学习被称为____ (同质/异质) 集成学习。

同质

2.好而不同

1、下列哪个关于集成学习的描述是正确的？

集成学习一定能取得比最好的个体学习器更好的性能
集成学习的性能可能与个体学习器的平均性能相同
集成学习的性能一定不差于最差的个体学习器
集成学习的性能在个体学习器平均性能与个体学习器最佳性能之间

本题正确答案应该为B选项，错选主要集中在D选项。集成学习仅当基学习器满足“好而不同”的要求时，才可能取得良好的结果。极端情况下，如过基学习器性能都比较差，则可能导致集成后的模型性能反而不如基学习器平均性能。考虑如下反例：在有3个训练样本的2分类任务中，有三个基学习器预测出来分别为(F,F,T)、(F,T,F)、(T,F,F)，其平均正确率为1/3，而使用投票法集成的话正确率则为0.

2、下列哪个选项不是集成学习在分类任务中取得好性能的要求？

个体学习器犯错的样本较为分散
个体学习器具有较好的性能
存在一个完美的个体学习器
个体学习器分对的样本不完全一致

3、误差-分歧分解表明集成学习中____(3个字) 是关键。

多样性

3.两类集成学习方法

1、下列哪个算法不是序列化集成学习方法？

XGBoost
Random Forest
AdaBoost
LPBoost

2、下列哪个算法不是并行化集成学习方法？

GradientBoost
Bagging
Random Forest
Random Subspace

3、集成学习中，后一个个体依赖于前一个个体的方法称为____(3个字) 方法。

序列化

4.Boosting

1、下列关于Boosting算法的说法中错误的是哪个？

Boosting算法适用于分类、回归、排序等机器学习问题
后一个基学习器更关注前一个基学习器学错的样本
Boosting算法的输出是所有基学习器的加权求和
不同基学习器使用的样本权重是相同的

2、下列关于Boosting算法中样本权重调整的说法中错误的是哪个？

所有样本的权重和保持不变
前一个基学习器分错的样本会获得更大的权重
只要权重调整的方向正确，Boosting算法的性能就可以获得理论保证
决策树可以直接处理带权重的样本

本题主要错误集中在误选A。注意在Boosting中，在每一轮循环重新调整完权重之后，会对所有的样本权重进行一个归一化处理（除以目前轮次的权重和Z_t），因此在算法运行过程中，虽然每个样本本身的权重会不断发生变化，但是对所有样本而言，其权重和是保持不变的。

3、Boosting是一种____ (同质/异质) 集成学习方法。

同质

5.Bagging

1、下列关于Bagging算法中采样的描述哪个是错误的？

可以使用Bootstrap采样
每个样本在每个基学习器的数据集中只会出现一次
采样是为了获得不同的基学习器
不同基学习器的数据从相同分布中采样得到

2、下列关于Bagging算法描述中错误的是哪个？

Bagging算法中每个基学习器使用相同的数据集
分类任务中使用投票法获得输出
回归任务中使用平均法获得输出
Random Forest是具有代表性的Bagging算法

3、Bagging算法使用的采样方法是____(有/无) 放回采样。

有

6.多样性度量

1、下列哪个选项是一种多样性度量？

Q-统计量
不合度量
相关系数
其余选项都是

2、下列关于多样性的描述中错误的是哪个？

多样性度量中可以考虑模型的结构差异
多样性的定义是集成学习中的圣杯问题
可以基于两分类器的预测结果列联表定义许多不同的多样性度量
已经有公认的多样性定义

3、____(3个字) 是集成学习的关键。

多样性

7.章节测试

1、下列关于误差-分歧分解的说法中正确的是哪个？

这一分解表明特定条件下，集成学习的性能与个体学习器多样性正相关
这一分解体现了多样性在回归、分类等机器学习任务中的重要性
这一分解给出了一种可操作的多样性定义
这一分解中的误差可以使用训练误差进行估计

2、下列关于同质集成学习与异质集成学习对比的说法中错误的是哪个？

异质集成学习能获得更多样的个体
同质集成学习在实现上更加简单
同质集成学习能更方便的对比个体的结果
同质集成学习能获得性能更好的个体

3、下列基于两分类器的预测结果连列表定义的表达式中，你认为哪个不适合作为多样性度量？

$\frac{(a+b)(b+c)(ad-bc)}{(a+b)(a+c)(b+d)(c+d)}$
$\frac{a+d}{a+b+c+d}$
$\frac{ad-bc}{ad+bc}$
$\mathbf{\frac{b-c}{a+b+c+c}}$

4、下列关于集成学习的说法中错误的是？

个体学习器准确率很高后，要增加多样性可以不牺牲准确性
当基分类器的错误率相互独立时，随着个体数目的增大，集成错误率将指数级下降
现实任务中，个体学习器很难做到相互独立
集成学习的核心是如何产生并结合好而不同的个体学习器

5、多样性是集成学习的关键，现实任务中往往会在学习过程中引入随机性来增强个体学习器的多样性，你认为下列哪个做法不是合适的增强多样性的方法？

每个个体学习器使用不同的数据子集
生成大量随机样本放入到数据集中
每个个体学习器使用不同的输入属性子集
当个体学习器有参数可以设置时，对不同个体学习器设置不同的参数

本题正确选项为B，在算法运行过程中，如果产生大量随机样本放入数据集中，将会导致学习器的性能变差，趋近于随机预测，违背了“好而不同”中“好”的要求。A选项是Bagging算法常用操作，C选项为随机森林的做法，D选项通过设置不同的参数，达到“好而不同”中“不同”的要求。

6、AdaBoost算法是一种常用的Boosting算法，该算法的伪代码如图所示，其中 $Z_t$ 用于确保 $D_{t+1}$ 是一个分布。考虑由3个样本组成的训练集，在第1轮中基学习算法将样本1与样本2分类正确，样本3分类错误。则在第2轮中，样本1的权重为____ (保留3位小数)。

在这里插入图片描述

0.250

7、上题第2轮中，样本3的权重为____(保留3位小数)。

0.500

在这里插入图片描述

8、弱学习器指泛化性能略优于随机猜测的学习器，如二分类问题中指精度略高于0.5的分类器。那么在三分类问题中，弱学习器是指精度略高于____ (保留3位小数) 的学习器。

0.333

9、当样本足够多时，使用3个基学习器的Bagging算法用到的训练数据的比例为____(小数形式并保留3位小数)。

0.950

1-0.368^3≈0.950

10、随机森林是一种典型的Bagging算法。随机森林使用的决策树的每个结点，先从该结点的属性集合中随机选择包含部分属性的属性子集，再从这个子集中选择一个最优的属性用于划分。这样生成的单棵决策树与单棵传统决策树相比，性能往往____ (更高/相同/更低)。

更低

11、随机森林与传统决策树构成的森林相比，多样性往往____(更高/相同/更低)。

更高

关注

19
点赞
踩
117

收藏

觉得还不错? 一键收藏
2
评论
西瓜书习题 - 8.集成学习

西瓜书第八章集成学习习题
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。