深度学习笔记(20):结构化机器学习项目的一般策略总结(2)

为什么是人的表现

为什么我们要把人的指标(准确度等)作为机器学习准确度的标准,是因为:
一方面,在很多领域,人的识别度是可以近似于贝叶斯误差的,也就是所谓的误差的最小值。所以我们实际上的bias判断也并不是基于在train上的错误率和0做差,而是和人的标准做差,评判到底是否合理。

另一方面,在机器学习达到人的级别之前的学习是很快的。在这之前我们可以用很多的手段使得机器学习快速达到人的水平,比如喂给它更多人工标记的数据,也可以通过人工观察出差距的原因。而在其指标超过人之后,就难以做到这一点了。所以人的误差是一个重要的衡量标准,也是一个分水岭。

可避免误差

也就是说我们不用0误差率来衡量,而是用近似于贝叶斯误差的人的误差来衡量模型的结果。
在跨过人的误差之后,更难判断模型的问题,机器学习的优化会变得更艰难。
事实上逻辑是这样的,在实际操作中,如果没有足够假设以至于无法知道精确的贝叶斯误差的表示,我们实际上常常在使用的是这个公式 A v a i l a b l e B i a s = M o d e l T r a i n i n g S e t E r r o r − B i a s E r r o r ≈ M o d e l T r a i n i n g S e t E r r o r − H u m a n E r r o r L i m i t a t i o n Available Bias=ModelTrainingSetError-BiasError≈ModelTrainingSetError-HumanErrorLimitation AvailableBias=ModelTrainingSetErrorBiasErrorModelTrainingSetErrorHumanErrorLimitation
然后用这个来衡量偏差,尝试调优模型。

超过人类表现时的可避免偏差

因为当超过人类表现时,我们无法判断bias偏差到底在哪里了。指明方向的工具已经没了。
我们不尽疑问,为什么机器学习算法能做的比人类更好,比如在线上广告,在产品建议,在贷款偿还能力预测等…这时候为什么机器学习能做的更好,其实就是因为它能够汲取更多的数据投入模型。
相比之下人类对于自然类感知比较擅长,但是对于统计学判断可能就不如大数据饲养的机器学习了。
希望你有一天也能设计出超越人类的算法。

总结:改善机器学习项目的一般步骤

如图所示,每一个步骤之前都有说,就不赘述了。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值