一些策略,一些分析机器学习问题的方法。
正交化方法
建立机器学习系统的挑战之一是:可以尝试和改变的东西太多了。
那些效率很高的机器学习专家有个特点,they are very clear-eyed about what to tune in order to try to achieve one effect.
这个操作我们称为正交化。 简单来说就是 One thing at a time。
当不能fit training set well on cost function的时候(寻找cost的最小值存在极限),我们应该去通过一个按钮,来调整更大的network、选择更好的优化算法比如Adam。
当不能fit dev set well on cost function的时候(存在过拟合问题),我们应该去通过一个按钮,来使用正则化或者更大的训练集。
当不能fit test set well on cost function的时候,我们应该去通过一个按钮,来选用更大的dev set。
当不能perform well in real world的时候,我们应该去通过一个按钮,来改变dev set或cost function。
单一数字评估指标
为你的问题设置一个单实数评估指标,简单来说就是用一个数值的高低来评判模型的好坏。
常见的比如识别准确率(precision)(被判定为猫的有多少真的是猫)和查全率(recall)(猫的图片有多少被判定为猫)。
但是这样你就有了多于1个评估指标,会导致模型的优劣难以判断。
我们可以定义一个指标F1,为准确率和查全率的调和平均数。
这样我们就可以从F1的值看出,模型2更好一些。
另一个由误差来判断模型优劣的例子:
(PPT)
满足和优化指标(satisficing and optimizing metrics)
在不能把顾及的所有事情组合成单实数评估指标时,设立满足和优化指标will work。
面对这样两个模型,我们希望它能够最大限度提高准确率,但必须满足运行时间要求。
在这里,准确率是optimizing,运行时间是satisficing 。
在面对N个指标的时候,我们最好选择一个作为optimizing(当然可以把多个指标组合为一个指标,比如F1),其他作为satisficing。