第三部分机器学习(ML)策略2 - 2 笔记

最新推荐文章于 2021-09-10 07:52:52 发布

dddd34

最新推荐文章于 2021-09-10 07:52:52 发布

阅读量292

点赞数

分类专栏：吴恩达深度学习笔记文章标签：笔记深度学习机器学习

本文链接：https://blog.csdn.net/dddd34/article/details/80260139

版权

吴恩达深度学习笔记专栏收录该内容

22 篇文章 0 订阅

订阅专栏

 
  2.4 在不同的划分上进行训练并测试 
 
  Training and testing on different distributions 
 
   深度学习算法需要大量的训练数据，不同渠道的数据往往内部分布也不相同，针对分布不同的数据如何进行训练是需要考虑的问题。 
 
  例子1 猫识别器APP

  数据来源 

  1、数据来自网络爬虫，特点数量多、取景专业、清晰、拍摄专业，数量：200000。 

  2、数据来自用户上传，特点数量较少，取景拍摄业余，甚至模糊，数量：10000。 

  最终用途 —— 用于识别用户上传的图像是否为猫。 

 
 选择1： 

  将两种数据混合在一起，并随机洗牌，选取其中205000个数据作为训练集，2500个数据作为开发集，2500个数据作为测试集。 

  这种选择虽然能够使得训练集与开发/测试集的分布相同，但是却有一个明显的缺点 —— 开发/测试集的分布与算法的最终应用数据分布是不同的，即算法最终是应用在用户上传的图片上，而开发/测试集数据中仅有2500*(1 - 200/210) = 119个约4.8%的数据为用户上传图片，这显然是不合理的。 

 
 选择2： 

  将用户上传的10000个数据随机拆分为两份，其中5000个数据通网络数据合并共205000个数据作为训练集，另外5000个数据均分为两份，2500个作为开发集，2500个作为测试集。这样开发/测试集的分布与真正的目标分布就完全一致，而这种目标即用户上传图片的才是算法应该真正关心的目标。当然缺点也很明显，训练集的分布与开发/测试集并非相同，但事实证明，这种类型的数据分布从长期来看能够带来更好的系统性能。 

 
 例子2 语音激活汽车后视镜 

  数据来源 

  1、其他领域的语音数据如从语音供应商购买、语音激活音响、语音激活键盘等等，数量：500000。2、激活汽车后视镜的实录语音，数量：20000。 

  最终用途 —— 识别用户语音用于激活汽车后视镜 

  类比于上个例子，可以将数据集划分如下： 

  将实录数据分类两份，10000个与数据1进行合并作为训练集，10000个平分分别作为开发集和测试集。 

 
 2.5 不匹配数据划分的偏差和方差 

 
 Bias and Variance with mismatched data distributions 

  通过分析算法在数据集上的偏差与方差可以确定算法优化的方向，但是当数据集的分布不同时，评价偏差和方差的方法会有所不同。 

   例子1 猫分类器 
 
       Human error 
      
       0% 
      
       Training error  
      
       1% 
      
       Dev error 
      
       10% 
      
  Case1： 开发集和训练集分布一致 
 
   方差(9%)远高于可避免偏差(1%)，算法泛化能力较差，需要调整算法降低方差。 
 
  Case2： 训练集和开发集分布不同 
 
   这种情况很难确定9%的方差是否由于开发集分布不同引起的，此时不能盲目的调整算法去降低方差。为了应对这种情况，从训练集中随机抽取一部分作为训练-开发集，该部分数据仅用来验证不参与训练。 
 
   此时数据集可以划分为：训练集、训练-开发集、开发集、测试集。其中训练集、训练-开发集具有相同分布，开发集、测试集也具有相同分布，如下图所示：

  例子2 猫分类器 

	case1	case2
Human error	0%	0%
Training error	1%	1%
Train-Dev error	9%	1.5%
Dev error	10%	10%

 
 Case1：根据训练-开发集的误差，算法的偏差为1%方差为8%，由于训练集与训练-开发集的分布相同，证明算法方差确实较高，泛化能差出现了过拟合现象。 

 
 Case2：此时算法的偏差为1%方差为0.5%，但是当算法应用到开发集上时，错误率提升到了10%，这是数据不匹配问题。开发集/测试集的分布于算法训练集并不相同，从而引起了开发集误差过大。 

  例子3 猫分类器 

	case1	case2
Human error	0%	0%
Training error	10%	10%
Train-Dev error	11%	11%
Dev error	12%	20%

 
 Case1：存在可避免偏差过高问题。 
 Case2：存在可避免偏差过高 + 数据不匹配问题。 

  例子4 语音激活后视镜 

  统计在数据集上表现，可以得到算法的偏差和方差，以及数据不匹配的程度，通过如上表格所示的方式即可清晰的对各项数据进行计算分析，进而可以找到可靠的算法优化方向。 

 
 2.6 定位数据不匹配问题 

 
 Addressing data mismatch 

  如何定位不匹配问题 

通过人工分析弄清楚训练集与开发/测试集数据的具体差异，为了避免过拟合，避免在测试集上进行分析。
尝试将训练集变得同开发/测试集数据分布更加相似，增加/收集更多数据、人工数据合成。

  人工数据合成 

  例子1 语音合成 

  清晰的音频 + 汽车噪声 ——> 带有汽车噪声背景的音频 

  潜在问题：10000小时的清晰音频加上1小时的汽车噪声重复10000次合成了10000小时的汽车噪声背景音频，这一小时的汽车噪声很可能仅是噪声集合中的一小部分，对这样的数据进行训练存在对这一小时噪声过拟合的风险。 

  例子2 汽车识别 

  人工合成汽车的图片，远远不能覆盖现实生活中车辆的类别，也会存在过拟合的风险。 

dddd34

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第三部分机器学习(ML)策略2 - 2 笔记

2.4 在不同的划分上进行训练并测试Training and testing on different distributions深度学习算法需要大量的训练数据，不同渠道的数据往往内部分布也不相同，针对分布不同的数据如何进行训练是需要考虑的问题。例子1 猫识别器APP数据来源1、数据来自网络爬虫，特点数量多、取景专业、清晰、拍摄专业，数量：200000。2、数据来自用户上传，特点数量较少，取景拍摄...
复制链接

扫一扫