Deep Leaning 学习笔记之组织机器学习项目（2.2）—— 不匹配的培训和开发/测试集

最新推荐文章于 2019-08-30 00:00:30 发布

Aperact

最新推荐文章于 2019-08-30 00:00:30 发布

阅读量202

点赞数

分类专栏：机器学习 DeepLearning

本文链接：https://blog.csdn.net/m0_37108127/article/details/100011310

版权

25 篇文章 3 订阅

订阅专栏

9 篇文章 1 订阅

订阅专栏

本文探讨了在机器学习项目中训练集和开发/测试集分布不匹配的问题。通过两种不同的数据分配策略，分析了数据分布不一致对模型性能的影响。讨论了数据分布不匹配导致的偏差和方差问题，并通过误差分析来识别模型的高偏差或高方差。强调了确保开发集和测试集遵循相同分布的重要性，以便更准确地评估模型性能。

摘要由CSDN通过智能技术生成

2 不匹配的培训和开发/测试集

假设：网图20W数据，用户上传1W数据

思想：把训练集的一部分取出来，当做train-dev set，这样保证训练集和train-dev set有着相同的分布，然后看各个误差情况，进行误差分析。
假设右侧区域分布：
1 丨2
——–
3 丨4

Train set error和贝叶斯误差相差不多，同时，train-dev set error和train set error差距较大，且dev error差距很大——右部分左上侧示例（1,9,10），图1区域。说明训练模型对于未见过的train-dev set（同一分布）的误差也很大，说明模型方差过高。
如果Train set error和贝叶斯误差相差不多，同时，train-dev set error和train set error差距不大，但是dev error差距很大——右部分右上侧示例（1,1.5,10），那么训练的模型对于未见过的train-dev set表现也还挺好，但是对dev set 的表现不行，说明是因为训练集和开发集不同分布所导致的
同样，右侧左下角图3区域，为高偏差问题，因为训练出来的模型和贝叶斯误差差距很大。但是方差不高，因为不管是同分布的train-dev set还是不同分布的dev set，表现都差距不大。
右侧右下角图4区域，又高偏差又高方差。

小结一下：
图1区域：可以看到由上到下依次是：偏差、方差、数据不匹配、测试集性能。

记住，你的开发集和测试集服从相同分布，因为开发集上的表现，要比测试集好太多，所以这个巨大差异的唯一理由是对开发集的过拟合，如果是这样的话，你可能会考虑倒回去，取得更多的开发集数据。

图2区域：

也许人类水平性能为4%，训练集误差为7% ，训练-开发集误差为10% ，但是到了开发集时，你惊讶的发现开发集的实际误差要小得多，也许都是6%
它是这样的效果，即训练集数据甚至要比开发集和测试集更难学习。如果有时基于您的应用，开发/测试集分布更容易学习，那么这些数字实际上是会下降的。

课程：Structuring Machine Learning Projects
week2，第五个18分钟视频。
一般来说红框区域内已经足够找出问题了，但是上面填满有时会有意外发现。

关注

专栏目录