3.1 实战项目一(决策很重要:下一步该怎么搞、正交化、单值评价指标、优化指标和满足指标、AI能力与人类能力,贝叶斯最优误差)

决策很重要:下一步该怎么搞

发现90%的准确度,想要提高,怎么做呢?

  • 收集更多数据
  • 调试超参数
  • 调整神经网络的大小或结构
  • 采用不同的优化算法
  • 进行正则化
  • etc.

我们有可能浪费大量时间在一条错误的改进路线

正交化

简单理解:

一个任务 == 多个独立子任务,当某个任务发生变化,其他不受影响!

电视机 == 按钮1调节亮度  按钮2调节音量 按钮3调节色彩对比度   互不影响!

对于监督学习:

希望达到四个目标

  1. 建立的模型在训练集上表现良好;
  2. 建立的模型在验证集上表现良好;
  3. 建立的模型在测试集上表现良好;
  4. 建立的模型在实际应用中表现良好。

解决方案

  • 对于第一条,如果模型在训练集上表现不好,可以尝试训练更大的神经网络或者换一种更好的优化算法(例如 Adam);
  • 对于第二条,如果模型在验证集上表现不好,可以进行正则化处理或者加入更多训练数据;
  • 对于第三条,如果模型在测试集上表现不好,可以尝试使用更大的验证集进行验证;
  • 对于第四条,如果模型在实际应用中表现不好,可能是因为测试集没有设置正确或者成本函数评估指标有误,需要改变测试集或成本函数。

综述

为这4个目标设计“按钮”,调节这些按钮,分别达到相应的目标,而不影响其他目标。参照上述解决方案。

 如何判断哪个网络更好

例子

A模型(没采用AI算法) == 预测全部人都是良性,结果误差0.5%

B模型(采用了AI算法) == 预测出了大多数恶性案例,结果误差1%

表面看是A好,但是实际B更好;A是瞎搞的,B预测出了大部分案例。

单值评价指标(single-number evaluation metric)

精确率 == 查准率

召回率 == 查全率

优化指标和满足指标

满足指标 == 预测时间在100ms以内,否则一律淘汰

优化指标 == 只要满足这个时间内,准确率越精准越好!

判断标准是可以改变的

A模型判断美女的准确率==97%,B模型判断美女的准确率==95%,但是A判断出的图片里面,很多准确,但是不符合核心价值观。那实际使用还是B更好。。。

需要我们标注出这些图片,更改成本函数,判断出这些不符合规范的图片,使成本大幅上涨。

还有很多例子,识别高清可以,标清的不行,等等。需要我们见招拆招,随机应变。

AI能力与人类能力

当机器学习能力超过人的能力水平后,它的进步速度逐渐变得缓慢,最终性能无法超过某个理论上限,这个上限被称为贝叶斯最优误差(Bayes Optimal Error)

因为人类能力接近贝叶斯最优误差,所以当机器学习系统的表现超过人类后,就没有太多继续改善的空间了。

人都无法识别图片了,就没办法打标签之类的了。

利用贝叶斯误差来判断拟合度

识别男女,自己的神经网络,训练集的误差8% 验证集的误差10%

若人的误差是1%,说明是学习的不够,属于欠拟合,需要参照解决方案去提升。

若人的误差是7%,说明训练集提升空间不大了,在验证集,可能发生了过拟合,需要增大训练集,正则化等。

(在训练集上学的太过了,太适应历史的K线,不适应未来的K线)

神经网络的误差与贝叶斯误差的差距也被叫做可避免误差

若神经网络的误差为7%,贝叶斯误差为1%,那么可避免误差==6%。

也就是说,这个神经网络可提升的空间只有6%,因为贝叶斯误差是最优误差,不可能被超越。

 人类的误差是多少

我们拿专家组医生的误差率作为贝叶斯误差。

实习医生、普通医生的误差,都可以成为人类误差。若一个产品超过了普通医生,那就已经有很强的实用性了。

AI超越人类

专家组的误差率是0.5%,而AI超越人类之后,训练集上表现是0.3% 测试集上表现是0.2%,我们也无法判断是过拟合还是次欠拟合了,没有对比标准了。

提升AI系统

提升AI系统==系统对更多的数据 拟合得更好

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值