西瓜书--第一章、第二章读书笔记

wayneli666

于 2021-08-18 00:43:43 发布

阅读量94

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wayneli666/article/details/119768911

版权

第一章

(1)学习任务大致可以分为两类，监督学习supervised learning和无监督学习unsupervised learning。

(2)学得模型适用于新样本的能力，被称为泛化generalization能力。

(3)归纳induction和演绎deduction，前者是特殊到一般的泛化，后者是一般到特殊的特化。

(4)NFL 定理最重要的寓意是让我们清楚地认识到，脱离具体问题，空泛地谈论"什么学习算法更好"毫无意义，因为若考虑所有潜在的问题，则所有学习算法都一样好。

第二章

(1)精度 = 1 - 错误率，学习器在训练集上的误差称为训练误差或经验误差，在新样本的上的误差称为泛化误差。

(2)当学习器把训练样本学得“太好”了的时候，很可能有一些训练集的特征被当作是所有其他样本的特征，这种情况是过拟合，欠拟合也就是说这些特征学习器还是没有掌握好。通常情况下，过拟合比欠拟合难处理。

(3)几种评估模型的方法

留出法：直接将数据集分为两个互斥的集合，常见做法是将大约2/3~4/5的样本用于训练，剩余的用于测试。

交叉验证法：将数据集分为k个相同大小的互斥子集，每个子集都从D中分层采样得到，每次用k-1个子集的并集作为训练集，剩下的那个子集就作为测试集，这样就能得到k组训练/测试集。若数据集D中有m个样本，如果k=m，那么这就是留一法。留一法的结果往往被认为比较准确。但是缺点也很明显，如果样本太多，那么要训练的模型也会很多。

自助法：假设数据集为D，里面有m个样本，每次随机抽取出一个样本放入D'，随机m次。自助法在难以划分测试集和训练集的时候、数据量比较少的时候使用，但是数据量足够的时候，还是更常用留出法和交叉验证法。

(4)查准率、查全率和F1：

查准率P 与查全率R 分别定义为

查准率和查全率是一对矛盾的度量，两者此消彼长，那么如何综合根据两者来评判模型的好坏呢？F1 度量:

F1度量的更一般形式，加权调和平均，β>1时，查全率有更大影响，β<1，查准时率有更大影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书--第一章、第二章读书笔记

第一章 (1)学习任务大致可以分为两类，监督学习supervised learning和无监督学习unsupervised learning。 (2)学得模型适用于新样本的能力，被称为泛化generalization能力。 (3)归纳induction和演绎deduction，前者是特殊到一般的泛化，后者是一般到特殊的特化。 (4)NFL 定理最重要的寓意是让我们清楚地认识到，脱离具体问题，空泛地谈论"什么学习算法更好"毫无意义，因为若考虑所有潜在的问题，则所有学习算法都一样好。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。