深度学习笔记（十四）数据集及偏差方差

最新推荐文章于 2024-01-23 12:23:09 发布

Mr.zwX

最新推荐文章于 2024-01-23 12:23:09 发布

阅读量1.3k

点赞数

分类专栏：【深度学习/神经网络】Deep Learning

本文链接：https://blog.csdn.net/qq_16763983/article/details/112908893

版权

84 篇文章 46 订阅

订阅专栏

一、应用机器学习是高度迭代的过程

在这里插入图片描述
决定项目进展速度的重要因素是创建高质量的训练数据集、验证集和测试集

将数据集划分为三个部分：

在小数据的机器学习时代，采用以下两种划分比例：

后者是非常合理的划分

在如今大数据时代，数据可能是百万级的，验证集和测试集的比例可以大大降低，100万条数据仅仅需要1万条数据作为验证集，1万条数据作为测试集。

训练集可能是网上下载的图片，验证集和测试集是用户上传的图片，两种途径获取的图片有较大差异的像素和后期。建议是验证集和测试集来自同一分布！而训练集需要大量数据，利用现在的一些技术，如网页抓取等，可以获取大量数据作为训练集，但是验证集和测试集建议来自同一分布。

如果没有测试集也不要紧，测试集是对神经网络系统做无偏评估，如果没有需要也可以不设置测试集，仅仅在验证集对模型进行评估即可。在只有训练集和验证集的情况下，验证集同样被称作测试集，不过在实际应用中，人们把测试集当作交叉验证集使用。

在这里插入图片描述

沿用猫猫图片识别的例子，如果图片是猫则标签为1，反之为0
考虑训练集和验证集的误差（error）

在如上的解释中，我们假定人眼识别图片的误差为0%，这是最优误差也是基础误差。
对于判断偏差和方差的总结：

直观理解高偏差和高方差
下图中的线性数据拟合度低，产生高偏差
在这里插入图片描述
下图过度拟合部分数据，产生高偏差（几乎线性分类器，并未拟合好数据）和高方差（使用曲线或二次函数，曲线灵活度太高，过度拟合两个样本点/中间的活跃数据）

高偏差解决方法：

通常调整一项的同时，另一项会受到影响，如何权衡方差和偏差就是一个问题。而在当今的深度学习和大数据时代下，持续训练大规模网络，准备充足数据，只要正则适度，通常可以在不明显影响偏差的同时，减小方差。吴恩达老师认为深度学习对监督学习大有脾益的一个重要原因就在这里了。

关注