吃瓜教程task01

Task01:概览西瓜书+南瓜书第一、二章

第一章:绪论

通过第一章的学习,了解了如下概念

  1. 机器学习的流程:将收集的样本按照8:2的比例分为训练样本和测试样本,再选择某个机器学习的算法,使其再训练集上学习,产生模型,最后用测试集测试模型的效果如何。
  2. 机器学习的目标:让模型更好地适用于新样本,具备“泛化”能力。
  3. 版本空间就是与训练集一致的所有假设所构成的集合,也就是假设空间的一个最大的子集。
  4. 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。NFL定理告诉我们:脱离某一个具体问题,空谈什么算法最优,就等价于随机胡猜,是毫无意义的,必须要针对具体的学习问题,探究该算法的归纳偏好是否与问题匹配。

第二章:模型评估与选择

通过第二章的学习,有如下收获:

  1. 过拟合与欠拟合:过拟合是机器学习能力太强,以至于将训练样本的自身特点当作了所有潜在样本都会具有的一般性质;欠拟合是机器学习能力太弱,对训练样本的一般性质尚未学好。
  2. 经验误差与泛化误差:经验误差指学习器在训练集上的误差,又称为“训练误差”;泛化误差指学习器在新样本上的误差。
  3. 评估方法:留出法、交叉验证法、自助法。
  4. 留出法:留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。在划分训练集和测试集时,需要尽可能保持数据分布的一致性,可采取分层抽样,但无法避免的是,当T比较小时,结果可能不够稳定准确。
  5. 交叉验证法:将数据集D划分为k个大小相似的互斥子集,每个子集都是从D中通过分层采样获得的,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,这样就可以获得k组训练/测试集,从而可以进行k次训练和测试,最终返回的是k个测试结果的均值。交叉验证法常用来对比同一算法的不同参数配置之间的效果,对比不同算法之间的效果。
  6. 自助法: 以自助取样法为基础。
  7. 调参:一般通过对每一个参数选定一个范围和变化步长
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值