Coursera-MachineLearning-Week6题目整理

最新推荐文章于 2022-04-19 23:59:12 发布

醉一心

最新推荐文章于 2022-04-19 23:59:12 发布

阅读量223

点赞数

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37402392/article/details/119516630

版权

编号按照对应的内容，1-1代表第一大部分遇到的第一题，R代表Review，C代表运行的代码（Code）。

1-1.

1-1

解：BCD

A：改进学习算法不靠直觉，需要进行对应的分析，错误。

B：诊断可以为改进学习算法提供更有效的指导，正确。

C：诊断需要花费时间，但是是有效地利用你的时间，正确。

D：诊断有时可以排除某些行动(改变学习算法)，因为不太可能显著提高性能，正确。

1-2.

1-2

解：A

过拟合是训练误差低，测试误差高。

1-3.

1-3

解：A

因为我们需要通过交叉验证集拟合一个多项式系数d。

2-1.

2-1

解：C

训练集方差为0.1，交叉验证集方差为0.3，更可能是高方差的过拟合。

2-2.

2-2

解：D

正则化系数λ大的时候会出现欠拟合（高偏差，低方差），λ小的时候会出现过拟合（高方差，低偏差）。

2-3.

2-3

解：BC

获取更多数据能有效解决过拟合的问题，即高方差，Jcv明显大于Jtrain。

2-4.

2-4

解：D

Jcv明显大于Jtrain，说明现在模型已经过拟合了，增加隐藏单元数不能解决。因为模型正在遭受到高方差，所以不能增加隐藏单元数。

3-1.

3-1

解：AD

A：对于一些学习应用程序，可以想象会出现许多不同的功能(例如电子邮件体功能、电子邮件路由功能等)，但很难事先猜测哪些功能最有用，正确。

B：对于垃圾邮件分类，检测和纠正故意拼写错误的算法不一定会大大提高准确性，错误。

C：由于垃圾邮件分类使用非常高维的特征向量(例如，n=50,000，如果特征捕获了50,000个不同的单词)，收集大量的训练集也会带来过高的计算量，导致收敛缓慢，错误。

D：对于如何开发一个高精度的学习系统，通常有许多可能的想法；我们应该通过分析而不是直觉来进行选择，正确。

3-2.

3-2

解：C

主要是为了增强泛化能力，避免针对测试集进行拟合。

4-1.

4-1

解：A

根据计算公式可得查准率为80/(80+20)=0.8。

4-2.

4-2

解：A

根据计算公式可得召回率为80/(80+80)=0.5。

4-3.

4-3

解：D

如何选取最好的P和R，推荐的是在交叉验证集上计算P和R，然后选择F1值(2PR/(P+R))最大的参数值。

4-4.

4-4

解：AC

大的训练集只能解决高方差的问题，所以我们需要选择欠拟合的选项。

A：没有足够信息，欠拟合，正确。

B：很多特征，过拟合，错误。

C：没有足够信息，即使使用神经网络也会欠拟合，正确。

D：不使用正则化，过拟合，错误。

R

R1-1

1-1

解：BCD

A：需要进行分析，不能使用直觉，错误。

B：诊断可以给出建议来改进学习算法，正确。

C：诊断需要花费时间，但是是有效地利用你的时间，正确。

D：诊断有时可以排除某些行动(改变学习算法)，因为不太可能显著提高性能，正确。

R1-2

R1-2

解：AC

训练集上表现的很好，测试集上很差，模型出现过拟合现象。因此，我们选择增加训练数据量或者使用更少的特征。

R1-3

R1-3

解：BC

训练集和测试集上表现都不好，模型出现欠拟合现象。因此，我们可以尝试添加特征。

R1-4

R1-4

解：BD

A：不能使用训练集的子集作为验证集，错误。

B：典型分法6:2:2，正确。

C：不能从测试集中训练任何参数，错误。

D：排序好的数据需要进行打乱后随机选取，这样能让我们的模型具有更高的泛化能力，正确。

R1-5

R1-5

解：ACD

A：高偏差，欠拟合，增加训练数据不能改进，正确。

B：训练误差和测试误差大致相同，欠拟合，增加特征可以改进结果，错误。

C：一个带有很多参数的模型很容易就过拟合，同时出现高方差，正确。

D：如果学习算法以及高方差，说明过拟合，增加训练数据可以有效改进，正确。

R2-1

R2-1

解：0.095

准确率为(85+10)/1000=0.095。

R2-2

R2-2

解：AD

使用大量数据适用于过拟合问题。例如使用大量参数或者包含足够信息。

R2-3

R2-3

解：C

阈值从0.5到0.3，就可能提高召回率，降低查准率。

R2-4

解：ABC

A：总是预测不是垃圾邮件，那么准确率就是99%。

B：总是预测垃圾邮件，那么召回率一定是100%(TP/(TP+FN)),准确率1%。

C：总是预测不是垃圾邮件，分类器的召回率是0%。

D：总是预测垃圾邮件，召回率是100%，查准率1%。

R2-5

R2-5

解：AD

A：误差分析可以提供好的建议，正确。

B：在建立模型之前直接收集大量数据，可能会浪费时间，错误。

C：训练逻辑回归模型，不需要一定取0.5作为阈值，错误。

D：使用大量数据可以防止过拟合，正确。

E：收集大量数据对欠拟合没有帮助，错误。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。