动手学习机器学习（Day6模型选择+过拟合和欠拟合）

m0_63453494

已于 2023-04-26 21:15:59 修改

阅读量60

点赞数

分类专栏：动手学习机器学习文章标签：机器学习学习人工智能

于 2023-04-26 21:12:10 首次发布

本文链接：https://blog.csdn.net/m0_63453494/article/details/130394655

版权

11 篇文章 2 订阅

订阅专栏

训练误差是模型在训练数据上的误差，而泛化误差是模型在未见过的新数据上的误差。文章讨论了模型的过拟合和欠拟合现象，以及如何通过验证数据集和测试数据集来评估模型性能。K-折交叉验证用于有限数据时提高模型评估的可靠性。模型容量、参数数量和VC维是影响模型泛化能力的关键因素。

摘要由CSDN通过智能技术生成

训练误差：模型在训练数据上的误差
泛化误差：模型在新数据上的误差
例子：根据模考成绩来预测未来考试分数
- 在过去的考试中表现很好（训练误差）不代表未来考试一定会好（泛化误差）
- 学生A通过背书在模考中拿到很好成绩，相当于学生A只会死记硬背当前给出的数据
- 学生B知道答案后面的原因，学生B知道答案的原因，从而能够灵活运用知识，相当于能预测后续的结果
我们关心的是泛化误差

验证数据集：一个用来评估模型好坏的数据集
- 例如拿出50%的训练数据，剩下50%来评估模型好坏，测模型精度、误差
- 不要跟训练数据混在一起
- 通过训练数据训练参数，然后用验证数据集判断训练好的模型精度和误差怎么样，再调整
- 训练数据相当于做习题，验证数据相当于月考，通过做习题得到知识，再通过月考来验证现在知识的掌握情况，通过月考的结果来调整对知识理解的偏差，得到对知识更好的了解
测试数据集：只用一次的数据集，不能用来调参，相当于高考，来测试现在这些参数的效果如何

	简单	复杂
低	正常	欠拟合
高	过拟合	正常

如果简单数据选择了高模型容量，出现过拟合，比如在一个很简单的数据集上用一个特别深的神经网络，神经网络会把每一个样本记住，缺失泛化性。过拟合会导致模型过于注意细节，同时把很多噪点记住。

复杂数据采用低模型容量，会欠拟合，精度不够

请添加图片描述

模型先足够大，再通过各种手段让泛化误差往下降

请添加图片描述

关注