Homework_Week6_Coursera【Machine Learning】AndrewNg、Part2.Machine Learning System Design

这篇博客详细解析了Coursera上Andrew Ng的机器学习课程第六周作业,涉及内容包括分类器的准确率计算、大规模数据集训练的影响、逻辑回归的应用与优化、不平衡数据集挑战以及模型性能指标。博客深入讨论了如何在实际问题中应用这些概念,并提供了相关练习题的答案和解释。
摘要由CSDN通过智能技术生成

Homework_Week6_Coursera【Machine Learning】AndrewNg、Part2.Machine Learning System Design

题目1

You are working on a spam classification system using regularized logistic regression. “Spam” is a positive class (y = 1) and “not spam” is the negative class (y = 0). You have trained your classifier and there are m = 1000 examples in the cross-validation set. The chart of predicted class vs. actual class is:
在这里插入图片描述

解析

问分类器的准确率
按照公式即可(TP+TN)/TOTAL EXAMPLES=(85+10)/1000
最终结果为95/1000=0.095

答案

0.095

题目2

Suppose a massive dataset is available for training a learning algorithm. Training on a lot of data is likely to give good performance when two of the following conditions hold true.

Which are the two?
在这里插入图片描述

解析

清晰的问题定义+具备足够拟合能力的算法=成功的机器学习算法

答案

AD

题目3

Suppose you have trained a logistic regression classifier which is outputing h_\theta(x)
在这里插入图片描述

解析

将原本是0.5的阈值调整到0.9,需要一个个来看选项
A会有高的precision正确 因为他是True pos/(TP+FP)是真正例和预测的正例比值,必然正例大幅度上升
B 与A矛盾,precision会变化,只是总的来说此消彼长
在这里插入图片描述

C分类器可能会有更高的召回率、TP/(TP+FN)其实反应的就是真正例和实际的正例应该是一个下降关系
D F1等数都会有变化的 不然课上讲的就没意义了
在这里插入图片描述

答案

A

题目4

Suppose you are working on a spam classifier, where spam

    emails are positive examples (y=1y=1) and non-spam emails are

    negative examples (y=0y=0). You have a training set of emails

    in which 99% of the emails are non-spam and the other 1% is

    spam. Which of the following statements are true? Check all

    that apply.

在这里插入图片描述

解析

99训练集都是正常邮件,只有百分之1是垃圾邮件那么如下哪个是正确的呢、??一个个看
A 没有过拟合,这是数据集本身的带标签样本分布不均带来的问题
B说一个好的分类器应该具备高的查准率和召回率在跨测试集上、确实越高越好
C说如果你预测正常邮件,你的分类器就会有99的正确率在训练集上,在交叉验证集上表现也会相似。确实,因为数据也没变、只是换种组合
D 预测正常邮件,会有99的正确率。肯定的,因为样本中有99的数据都是正例、本身就没学习到多少垃圾邮件的特征

答案

BCD

题目5

Which of the following statements are true? Check all that apply.
在这里插入图片描述

解析

逐个分析、
A用很大的训练集不太会让模型过拟合、正确
B花很多时间收集大量数据在建立第一个学习算法之前。注意不一定是大量,强调的不应该只是数量,更应该是质量。错误
C在训练了一个逻辑回归分类器后,你需要使用0.5作为你的阈值来预测模型是正或负例,must太过于绝对了,我就不用0.5也可
D如果你的模型在训练集上过拟合,那么取得更多的数据会有帮助,可能是模型本身的问题或者是特征提取的问题。很明显不会有帮助,上期有讲
E手动检查案例就会是使的算法在错误分析上明白应该采取哪些步骤去提升算法表现。没问题

答案

AE

结果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不会写程序的程序员.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值