(《机器学习》完整版系列)第2章 模型评估与选择 ——2.9 (实战)在机器学习开发实践中如何改善学习器的性能?可使用“人类基准”

前几篇博客我们对模型进行评估、分析进行了讨论,就是为了模型选择。 本篇聚焦到开发者如何使用这些知识指导开发工作。
在开发过程中,如何处理过拟合(低偏差、高方差)和欠拟合(高偏差、低方差);如何利用人类基准;如何改善数据质量(指数据符合实际场景的程度)。

指导开发

误差分析

在开发人员的语境中,常将模型(实例)说成算法,本节及其他开发环境语境下我们沿用这一习惯。
开发者对算法(模型实例)在验证集中的表现进行白盒分析,找出被误分类的原因、各原因的占比,与预期效果进行比较以及考虑改善各根因的难度和工作量,从而确定在项目约束(如,进度及成本)下是否改进以及改进的方向等。

在项目开始的原型阶段,容许较大的误差,在算法改进到一定的程度,就应该进行误差分析,称为Eyeball(仔细打量,实际上是后置白盒,即对结果进行解剖,这与“白盒测试”不同),当验证集较大时,选取其子集进行详细分析,子集样本数量通常在“百级”。

偏差与方差分析

前面已从理论的角度讨论过偏差与方差,这里再从直观的角度给出粗略的定义,对开发人员而言,该定义易理解,易应用。

由于训练集是算法“见过”的数据,所以算法在测试集上的性能通常比在训练集上要差,定义:

  • 偏差:算法在训练集上的错误率。
  • 方差:算法在测试集上的表现比在训练集上差多少。

在此定义下,易理解如下概念:

  • 过拟合:低偏差、高方差。 即过度地“死记硬背”不会“举一反三”。
  • 欠拟合:高偏差、低方差。

减少方差的方法通常有:

  • 增加训练数据。
  • 正则化(正则化方法参见第5章),副作用是会增加偏差。
  • 提前终止算法(实际上也是一种正则化)。
  • 减小规模(如,减少神经网络的层),副作用也是会增加偏差,由于减小规模会降低能力,故应慎用。
  • 减少特征,副作用是会增加偏差。

为讨论减少偏差的方法,我们进一步地将偏差分为两类:

  • 不可避免偏差:常指最优错误率(亦称贝叶斯错误率,即贝叶斯最优分类器产生的错误率,参见第7章),在一些“识别”系统(如,有噪音的语音识别)的开发中,常将人类的能力作为比较的基准系统,这时,就将人类的偏差作为不可避免偏差。
  • 可避免偏差:偏差减去不可避免偏差。

当可避免偏差为负时,则过拟合。 因此,最好是可避免偏差为正的且接近于0,减少可避免偏差的方法:

  • 加大规模(如,增加神经网络的层),这样做的副作用是通常会增加方差。
  • 增加特征,主要是针对某特定类别的误差,增加相应的特征提升对该类的识别度,副作用也是会增加方差。
  • 减少正则化,副作用也是会增加方差。

人类基准

对于人类擅长的任务(如,语音识别),通常可以以人类能力作为目标基准,找出可避免偏差进行优化,例如某项任务中人类误差为2%,机器误差为10%,则有8%的优化空间。

通常从如下方面入手:

  • 基于人类经验和直觉进行误差分析。
  • 基于人类经验和直觉估计最优错误率,设置可达到的“期望错误率”:例如,对于某任务,无该知识背景的人错误率为15%、新手的错误率为10%、经验丰富者的错误率为5%、专业团队的错误率为2%,则可将2%或3%定为“期望错误率”。
  • 基于人类的局部优势:若对某任务,整体上机器已优于人类,那么,再考虑局部是否人类仍有优势。 例如,假定在有噪音环境中,机器已优于人类,但能找到某子集(如,语速快)上人类仍占优,则在此方面进一步优化机器。

三类数据集

为区别,将前述用于模型选择(调超参)的“测试数据”改称为验证集(由于“调参”(调超参)属于开发阶段,故验证集也称为开发集), “交叉验证”这一术语中的“验证”二字体现了该方法主要用于模型的评估和选择。 数据工程师通常根据用途将样本集分为三个不相交的数据集:训练集、验证集和测试集。

1.训练集:用于运行学习算法,训练出模型(实例);

2.验证集:用于对学习算法的调整作出决定(如,调参、选择特征);

3.测试集:用于评估算法或模型的性能,但不会据此改变学习算法或参数,类似于质检。

在大数据支持下,训练集越大越好,而验证集和测试集的规模并不需要太大,只要能区分出差异即可。 实践中,通常取“千”、“万”级别即可,训练集很大时,它们应远小于训练集的30%。

模型未来会投入到某某特定的实际应用,但开发时可能难以获得足够量真实场景的数据,这时,可以考虑从其他途径获得近似实际应用中的数据,如,模型打算用于处理手机拍的照片,那么,可以从互联网上获得大量照片,再选取手机拍摄的或近似于手机拍摄的。 另外,要特别强调的是验证集应与测试集应保证(近似)服从同一分布。

数据质量

数据质量是指数据符合实际场景的程度,例如,雾天应用场景的照片应该是模糊的,太清晰(平时认为质量好的照片)反而不是合格的数据。 另外,数据质量应从数据集的“集”的角度评价,如,雾天应用场景的照片应该是大都是模糊的,偶尔有一些清晰照片也是正常的。
大数据时代有的是数据,但在这个数据大海中寻找合适的数据(数据质量满足要求)也是个问题,这里根据经验给出若干关注点:

  • 数据可能有多种来源(如,源于用户提供、源于互联网、源于应用场景),给不同来源的数据加上权重,越接近真实应用场景权重越大。
  • 关注数据不匹配问题:当机器在测试集中表现良好而在实际应用中表现不佳时,通常是测试集与实际应用环境中的数据分布不一致所产生的,因此,应尽可能地使测试集与实际应用环境中的数据保护同一分布,这就是数据的采样问题。 同样,应尽可能地使验证集与测试集保持同一分布 。
  • 人工合成数据可能导致的过拟合和欠拟合:如,合成有汽车噪音的语音材料时,在公路上录取1小时的汽车噪音,作为背景噪音合成到1000小时的语音中,那么,由于只出现了几种车型和有限路况,反复使用这1小时的背景噪音就存在过拟合问题,而对没有收集到的车型及组合、未考虑不同路况(如,路况不好时的刹车声)等产生欠拟合。

另外,数据的预处理(如,样本的特征选择、数据清理及其他特征工程方面的工作)等利用了人类的洞察力和人工设计知识,使训练沿着正确的方向进行,但另一方面,这也是对训练强加了某种限制。 一种观点认为应尽量减少这种限制,尤其在深度学习领域,近年来,这种观点盛行,由此,兴起了“端到端深度学习”的热潮。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:2.8 学习器的比较
下一篇:3.1 线性回归(线性模型对应于仿射函数)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值