1 误差分析
1.1 进行误差分析——列表格
- 在开发集中进行
- 将被分错的图片挑出来其中100张(可以更多)
建立一个如下表格:
- 行:图片的序号,以及每个因素所占百分比。
- 列:影响误分类的因素,如狗,错误的分成猫;豹子,错误分成猫;下雨天,错误分成带猫的。。。
根据百分比来看,哪一项所占百分比更高,那么这一项就更指的进行修改。
1.2 清理标记错误的数据
建议:
- 如果要清理错误标签,那么要同时清理开发集和测试集中的错误标签,因为这样才可以让dev/test保持相同分布
- 既要看预测错误的标签,也要检查预测正确的标签(有的可能是因为运气才预测正确的,清理标记错误的标签后,可以排除这种运气成分)
- 可以不在训练集上清理标签,训练集和dev / test稍微不同分布也是可以的
1.3 快速建立一个模型,然后迭代
- 如果你在进行一个新的领域的探索,则可以快速建立一个模型,然后迭代,之后通过误差分析,对模型进行优化。
- 如果你在一个你比较擅长的领域,或者是已经有大量文献和你的目标保持一致的情况,你可以根据文献来建立一个比较复杂的模型,然后进行迭代。