第三部分 机器学习(ML)策略2 - 2 笔记

2.4 在不同的划分上进行训练并测试
Training and testing on different distributions
深度学习算法需要大量的训练数据,不同渠道的数据往往内部分布也不相同,针对分布不同的数据如何进行训练是需要考虑的问题。
例子1 猫识别器APP

数据来源
1、数据来自网络爬虫,特点数量多、取景专业、清晰、拍摄专业,数量:200000。
2、数据来自用户上传,特点数量较少,取景拍摄业余,甚至模糊,数量:10000。
最终用途 —— 用于识别用户上传的图像是否为猫。
选择1:
将两种数据混合在一起,并随机洗牌,选取其中205000个数据作为训练集,2500个数据作为开发集,2500个数据作为测试集。
这种选择虽然能够使得训练集与开发/测试集的分布相同,但是却有一个明显的缺点 —— 开发/测试集的分布与算法的最终应用数据分布是不同的,即算法最终是应用在用户上传的图片上,而开发/测试集数据中仅有2500*(1 - 200/210) = 119个约4.8%的数据为用户上传图片,这显然是不合理的。
选择2:
将用户上传的10000个数据随机拆分为两份,其中5000个数据通网络数据合并共205000个数据作为训练集,另外5000个数据均分为两份,2500个作为开发集,2500个作为测试集。这样开发/测试集的分布与真正的目标分布就完全一致,而这种目标即用户上传图片的才是算法应该真正关心的目标。当然缺点也很明显,训练集的分布与开发/测试集并非相同,但事实证明,这种类型的数据分布从长期来看能够带来更好的系统性能。
例子2 语音激活汽车后视镜


数据来源
1、其他领域的语音数据如从语音供应商购买、语音激活音响、语音激活键盘等等,数量:500000。2、激活汽车后视镜的实录语音,数量:20000。
最终用途 —— 识别用户语音用于激活汽车后视镜
类比于上个例子,可以将数据集划分如下:
将实录数据分类两份,10000个与数据1进行合并作为训练集,10000个平分分别作为开发集和测试集。

2.5 不匹配数据划分的偏差和方差
Bias and Variance with mismatched data distributions
通过分析算法在数据集上的偏差与方差可以确定算法优化的方向,但是当数据集的分布不同时,评价偏差和方差的方法会有所不同。
例子1 猫分类器
Human error
0%
Training error
1%
Dev error
10%
Case1: 开发集和训练集分布一致
方差(9%)远高于可避免偏差(1%),算法泛化能力较差,需要调整算法降低方差。
Case2: 训练集和开发集分布不同
这种情况很难确定9%的方差是否由于开发集分布不同引起的,此时不能盲目的调整算法去降低方差。为了应对这种情况,从训练集中随机抽取一部分作为训练-开发集,该部分数据仅用来验证不参与训练。
此时数据集可以划分为:训练集、训练-开发集、开发集、测试集。其中训练集、训练-开发集具有相同分布,开发集、测试集也具有相同分布,如下图所示:

例子2 猫分类器
 
case1
case2
Human error
0%
0%
Training error
1%
1%
Train-Dev error
9%
1.5%
Dev error
10%
10%
Case1:根据训练-开发集的误差,算法的偏差为1%方差为8%,由于训练集与训练-开发集的分布相同,证明算法方差确实较高,泛化能差出现了过拟合现象。
Case2:此时算法的偏差为1%方差为0.5%,但是当算法应用到开发集上时,错误率提升到了10%,这是数据不匹配问题。开发集/测试集的分布于算法训练集并不相同,从而引起了开发集误差过大。
例子3 猫分类器
 
case1
case2
Human error
0%
0%
Training error
10%
10%
Train-Dev error
11%
11%
Dev error
12%
20%
Case1:存在可避免偏差过高问题。 Case2:存在可避免偏差过高 + 数据不匹配问题。
例子4 语音激活后视镜

统计在数据集上表现,可以得到算法的偏差和方差,以及数据不匹配的程度,通过如上表格所示的方式即可清晰的对各项数据进行计算分析,进而可以找到可靠的算法优化方向。

2.6 定位数据不匹配问题
Addressing data mismatch
如何定位不匹配问题
  • 通过人工分析弄清楚训练集与开发/测试集数据的具体差异,为了避免过拟合,避免在测试集上进行分析。
  • 尝试将训练集变得同开发/测试集数据分布更加相似,增加/收集更多数据、人工数据合成。
人工数据合成
例子1 语音合成

清晰的音频 + 汽车噪声 ——> 带有汽车噪声背景的音频
潜在问题:10000小时的清晰音频加上1小时的汽车噪声重复10000次合成了10000小时的汽车噪声背景音频,这一小时的汽车噪声很可能仅是噪声集合中的一小部分,对这样的数据进行训练存在对这一小时噪声过拟合的风险。
例子2 汽车识别

人工合成汽车的图片,远远不能覆盖现实生活中车辆的类别,也会存在过拟合的风险。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值