机器学习策略(2)(ML Strategy (2))
一、进行误差分析(Carrying out error analysis)
假设你正在调试猫分类器,然后你取得了 90%准确率,相当于 10%错误,,在你的开发 集上做到这样,这离你希望的目标还有很远。也许你的队员看了一下算法分类出错的例子, 注意到算法将一些狗分类为猫,你看看这两只狗,它们看起来是有点像猫,至少乍一看是。 所以也许你的队友给你一个建议,如何针对狗的图片优化算法。试想一下,你可以针对狗, 收集更多的狗图,或者设计一些只处理狗的算法功能之类的,为了让你的猫分类器在狗图上 做的更好,让算法不再将狗分类成猫。所以问题在于,你是不是应该去开始做一个项目专门 处理狗?这项目可能需要花费几个月的时间才能让算法在狗图片上犯更少的错误,这样做值 得吗?或者与其花几个月做这个项目,有可能最后发现这样一点用都没有。这里有个错误分 析流程,可以让你很快知道这个方向是否值得努力。
这是我建议你做的,首先,收集一下,比如说 100 个错误标记的开发集样本,然后手动 检查,一次只看一个,看看你的开发集里有多少错误标记的样本是狗。现在