动手学习机器学习(Day6模型选择+过拟合和欠拟合)

训练误差是模型在训练数据上的误差,而泛化误差是模型在未见过的新数据上的误差。文章讨论了模型的过拟合和欠拟合现象,以及如何通过验证数据集和测试数据集来评估模型性能。K-折交叉验证用于有限数据时提高模型评估的可靠性。模型容量、参数数量和VC维是影响模型泛化能力的关键因素。
摘要由CSDN通过智能技术生成

训练误差和泛化误差

  • 训练误差:模型在训练数据上的误差
  • 泛化误差:模型在新数据上的误差
  • 例子:根据模考成绩来预测未来考试分数
    • 在过去的考试中表现很好(训练误差)不代表未来考试一定会好(泛化误差)
    • 学生A通过背书在模考中拿到很好成绩,相当于学生A只会死记硬背当前给出的数据
    • 学生B知道答案后面的原因,学生B知道答案的原因,从而能够灵活运用知识,相当于能预测后续的结果
  • 我们关心的是泛化误差

验证数据集和测试数据集

  • 验证数据集:一个用来评估模型好坏的数据集
    • 例如拿出50%的训练数据,剩下50%来评估模型好坏,测模型精度、误差
    • 不要跟训练数据混在一起
    • 通过训练数据训练参数,然后用验证数据集判断训练好的模型精度和误差怎么样,再调整
    • 训练数据相当于做习题,验证数据相当于月考,通过做习题得到知识,再通过月考来验证现在知识的掌握情况,通过月考的结果来调整对知识理解的偏差,得到对知识更好的了解
  • 测试数据集:只用一次的数据集,不能用来调参,相当于高考,来测试现在这些参数的效果如何

K-则交叉验证

  • 没有足够多数据时使用(常态)
  • 算法:
    • 将训练数据分为K块
    • For i=1,…, K
      • 使用第i块作为验证数据集,其余的作为训练数据集
    • 报告K个验证集误差的平均
  • 常用:K=5或10

过拟合和欠拟合

简单复杂
正常欠拟合
过拟合正常

如果简单数据选择了高模型容量,出现过拟合,比如在一个很简单的数据集上用一个特别深的神经网络,神经网络会把每一个样本记住,缺失泛化性。过拟合会导致模型过于注意细节,同时把很多噪点记住。

复杂数据采用低模型容量,会欠拟合,精度不够

模型容量

  • 拟合各种函数的能力
  • 低容量的模型难以拟合训练数据
  • 高容量的模型可以记住所有的训练数据

请添加图片描述

模型先足够大,再通过各种手段让泛化误差往下降

估计模型容量

  • 难以在不同种类算法之间比较
  • 给定一个模型种类,将有两个主要因素
    • 参数个数
    • 参数值的选择范围

请添加图片描述

VC维
  • 对于一个分类模型,VC等于最大的数据集大小,不管如何给定标号,都存在一个模型对它完美分类
  • 举例
    • 2维输入的感知机,VC维=3
      • 就是单层感知机,能分类任意3个点,不是4个,因为4个能表示异或的情况

数据复杂度

  • 多个重要因素
    • 样本个数
    • 每个样本的元素个数
    • 时间、空间结构
    • 多样性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值