机器学习（西瓜书）第二章

最新推荐文章于 2022-08-30 16:15:56 发布

Philia_YF

最新推荐文章于 2022-08-30 16:15:56 发布

阅读量1k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/froniday/article/details/103777246

版权

机器学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

该笔记是在学习周志华老师《机器学习》这本书的过程中所做的笔记

Part1 经验误差与过拟合

精确度=1-错误率

泛化误差：在新样本上的误差

过拟合：学习器把训练样本学得太好了，很可能已经把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质，这样会导致泛化能力下降

产生过拟合的原因：学习能力太强了

欠拟合：对训练样本的一般性质尚未学好

欠拟合产生的原因：学习能力低下

Part2 评估方法

Part3性能度量

方差-偏差的矛盾：

1、训练不足时，学习器拟合能力不强，偏差占主导

2、随着训练程度加深，学习器拟合能力逐渐增强，方差逐渐主导

3、当训练充足后，学习器的拟合能力很强，长查占主导

关于题目的答案：

习题2.1：数据集包含1000个样本，其中500个正例，500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

一个组合问题，从500正反例中分别选出150正反例用于留出法评估，所以可能取法应该是(C150500)2种。

习题2.2：数据集包含100个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别（训练样本数相同时进行随机猜测），试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。

10折交叉检验：由于每次训练样本中正反例数目一样，所以讲结果判断为正反例的概率也是一样的，所以错误率的期望是50%。

留一法：如果留下的是正例，训练样本中反例的数目比正例多一个，所以留出的样本会被判断是反例；同理，留出的是反例，则会被判断成正例，所以错误率是100%。

习题3.3：若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高

F1值的大小与BEP值并没有明确的关系。

两个分类器的F1值得大小与他们的BEP值大小并没有明确的关系(没去找)

习题2.4：试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

查全率: 真实正例被预测为正例的比例

真正例率: 真实正例被预测为正例的比例

显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例

假正例率: 真实反例被预测为正例的比例

两者并没有直接的数值关系。

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
机器学习（西瓜书）第二章

该笔记是在学习周志华老师《机器学习》这本书的过程中所做的笔记Part1 经验误差与过拟合精确度=1-错误率泛化误差：在新样本上的误差过拟合：学习器把训练样本学得太好了，很可能已经把训练样本自身的一些特点当作了所有潜在样本都具有的一般性质，这样会导致泛化能力下降产生过拟合的原因：学习能力太强了欠拟合：对训练样本的一般性质尚未学好欠拟合产生的原因：学习能力低下...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。