西瓜书--第一章、第二章读书笔记

第一章

  (1)学习任务大致可以分为两类,监督学习supervised learning和无监督学习unsupervised learning。

  (2)学得模型适用于新样本的能力,被称为泛化generalization能力。

  (3)归纳induction和演绎deduction,前者是特殊到一般的泛化,后者是一般到特殊的特化。

  (4)NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。

第二章

  (1)精度 = 1 - 错误率,学习器在训练集上的误差称为训练误差或经验误差,在新样本的上的误差称为泛化误差。

  (2)当学习器把训练样本学得“太好”了的时候,很可能有一些训练集的特征被当作是所有其他样本的特征,这种情况是过拟合,欠拟合也就是说这些特征学习器还是没有掌握好。通常情况下,过拟合比欠拟合难处理。

  (3)几种评估模型的方法

        留出法:直接将数据集分为两个互斥的集合,常见做法是将大约2/3~4/5的样本用于训练,剩余的用于测试。

        交叉验证法:将数据集分为k个相同大小的互斥子集,每个子集都从D中分层采样得到,每次用k-1个子集的并集作为训练集,剩下的那个子集就作为测试集,这样就能得到k组训练/测试集。若数据集D中有m个样本,如果k=m,那么这就是留一法。留一法的结果往往被认为比较准确。但是缺点也很明显,如果样本太多,那么要训练的模型也会很多。

        自助法:假设数据集为D,里面有m个样本,每次随机抽取出一个样本放入D',随机m次。自助法在难以划分测试集和训练集的时候、数据量比较少的时候使用,但是数据量足够的时候,还是更常用留出法和交叉验证法。

  (4)查准率、查全率和F1:

        

         查准率P 与查全率R 分别定义为

        

        查准率和查全率是一对矛盾的度量,两者此消彼长,那么如何综合根据两者来评判模型的好坏呢?F1 度量:

         

        F1度量的更一般形式,加权调和平均,β>1时,查全率有更大影响,β<1,查准时率有更大影响。

         

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值