决策很重要:下一步该怎么搞
发现90%的准确度,想要提高,怎么做呢?
- 收集更多数据
- 调试超参数
- 调整神经网络的大小或结构
- 采用不同的优化算法
- 进行正则化
- etc.
我们有可能浪费大量时间在一条错误的改进路线
正交化
简单理解:
一个任务 == 多个独立子任务,当某个任务发生变化,其他不受影响!
电视机 == 按钮1调节亮度 按钮2调节音量 按钮3调节色彩对比度 互不影响!
对于监督学习:
希望达到四个目标
- 建立的模型在训练集上表现良好;
- 建立的模型在验证集上表现良好;
- 建立的模型在测试集上表现良好;
- 建立的模型在实际应用中表现良好。
解决方案
- 对于第一条,如果模型在训练集上表现不好,可以尝试训练更大的神经网络或者换一种更好的优化算法(例如 Adam);
- 对于第二条,如果模型在验证集上表现不好,可以进行正则化处理或者加入更多训练数据;
- 对于第三条,如果模型在测试集上表现不好,可以尝试使用更大的验证集进行验证;
- 对于第四条,如果模型在实际应用中表现不好,可能是因为测试集没有设置正确或者成本函数评估指标有误,需要改变测试集或成本函数。
综述
为这4个目标设计“按钮”,调节这些按钮,分别达到相应的目标,而不影响其他目标。参照上述解决方案。
如何判断哪个网络更好
例子
A模型(没采用AI算法) == 预测全部人都是良性,结果误差0.5%
B模型(采用了AI算法) == 预测出了大多数恶性案例,结果误差1%
表面看是A好,但是实际B更好;A是瞎搞的,B预测出了大部分案例。
单值评价指标(single-number evaluation metric)
精确率 == 查准率
召回率 == 查全率
优化指标和满足指标
满足指标 == 预测时间在100ms以内,否则一律淘汰
优化指标 == 只要满足这个时间内,准确率越精准越好!
判断标准是可以改变的
A模型判断美女的准确率==97%,B模型判断美女的准确率==95%,但是A判断出的图片里面,很多准确,但是不符合核心价值观。那实际使用还是B更好。。。
需要我们标注出这些图片,更改成本函数,判断出这些不符合规范的图片,使成本大幅上涨。
还有很多例子,识别高清可以,标清的不行,等等。需要我们见招拆招,随机应变。
AI能力与人类能力
当机器学习能力超过人的能力水平后,它的进步速度逐渐变得缓慢,最终性能无法超过某个理论上限,这个上限被称为贝叶斯最优误差(Bayes Optimal Error)。
因为人类能力接近贝叶斯最优误差,所以当机器学习系统的表现超过人类后,就没有太多继续改善的空间了。
人都无法识别图片了,就没办法打标签之类的了。
利用贝叶斯误差来判断拟合度
识别男女,自己的神经网络,训练集的误差8% 验证集的误差10%
若人的误差是1%,说明是学习的不够,属于欠拟合,需要参照解决方案去提升。
若人的误差是7%,说明训练集提升空间不大了,在验证集,可能发生了过拟合,需要增大训练集,正则化等。
(在训练集上学的太过了,太适应历史的K线,不适应未来的K线)
神经网络的误差与贝叶斯误差的差距也被叫做可避免误差,
若神经网络的误差为7%,贝叶斯误差为1%,那么可避免误差==6%。
也就是说,这个神经网络可提升的空间只有6%,因为贝叶斯误差是最优误差,不可能被超越。
人类的误差是多少
我们拿专家组医生的误差率作为贝叶斯误差。
实习医生、普通医生的误差,都可以成为人类误差。若一个产品超过了普通医生,那就已经有很强的实用性了。
AI超越人类
专家组的误差率是0.5%,而AI超越人类之后,训练集上表现是0.3% 测试集上表现是0.2%,我们也无法判断是过拟合还是次欠拟合了,没有对比标准了。
提升AI系统
提升AI系统==系统对更多的数据 拟合得更好