第七章习题

1.如果你已经在完全相同的训练集上训练了5个不同的模型,并且 它们都达到了95%的准确率,是否还有机会通过结合这些模型来获得更 好的结果?如果可以,该怎么做?如果不行,为什么?

如果你已经训练了5个不同的模型,并且都达到了95%的精度,则 可以尝试将它们组合成一个投票集成,这通常会带来更好的结果。如果 模型之间非常不同(例如,一个SVM分类器、一个决策树分类器,以及 一个Logistic回归分类器等),则效果更优。如果它们是在不同的训练 实例(这是bagging和pasting集成的关键点)上完成训练,那就更好 了,但如果不是,只要模型非常不同,这个集成仍然有效。


2.硬投票分类器和软投票分类器有什么区别?

硬投票分类器只是统计每个分类器的投票,然后挑选出得票最多 的类。软投票分类器计算出每个类的平均估算概率,然后选出概率最高 的类别。它比硬投票法的表现更优,因为它给予那些高度自信的投票更 高的权重。但是它要求每个分类器都能够估算出类别概率才可以正常工 作(例如,Scikit-Learn中的SVM分类器必须要设置 probability=True)。

3.是否可以通过在多个服务器上并行来加速bagging集成的训练? pasting集成呢?boosting集成呢?随机森林或stacking集成呢?

对于bagging集成来说,将其分布在多个服务器上能够有效加速 训练过程,因为集成中的每个预测器都是独立工作的。同理,对于 pasting集成和随机森林来说也是如此。但是,boosting集成的每个预 测器都是基于其前序的结果,因此训练过程必须是有序的,将其分布在 多个服务器上毫无意义。对于stacking集成来说,某个指定层的预测器 之间彼此独立,因而可以在多台服务器上并行训练,但是,某一层的预 测器只能在其前一层的预测器全部训练完成之后才能开始训练。

4.包外评估的好处是什么?

包外评估可以对bagging集成中的每个预测器使用其未经训练的 实例(它们是被保留的)进行评估。不需要额外的验证集,就可以对集 成实施相当公正的评估。所以,如果训练使用的实例越多,集成的性能 可以略有提升。

5.是什么让极端随机树比一般随机森林更加随机?这部分增加的 随机性有什么用?极端随机树比一般随机森林快还是慢?

随机森林在生长过程中,每个节点的分裂仅考虑到了特征的一个 随机子集。极限随机树也是如此,它甚至走得更远:常规决策树会搜索 出特征的最佳阈值,极端随机树直接对每个特征使用随机阈值。这种极 端随机性就像是一种正则化的形式:如果随机森林过拟合训练数据,那 么极端随机树可能执行效果更好。而且,由于极端随机树不需要计算最 佳阈值,因此它训练起来比随机森林快得多。但是,在做预测的时候, 相比随机森林它不快也不慢。

6.如果你的AdaBoost集成对训练数据欠拟合,你应该调整哪些超 参数?怎么调整?

如果你的AdaBoost集成欠拟合训练集,可以尝试提升估算器的数 量或是降低基础估算器的正则化超参数。你也可以尝试略微提升学习 率。

7.如果你的梯度提升集成对训练集过拟合,你是应该提升还是降 低学习率?

如果你的梯度提升集成过拟合训练集,你应该试着降低学习率, 也可以通过提前停止法来寻找合适的预测器数量(可能是因为预测器太 多)。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值