文章目录
进行误差分析
- 什么时候进行误差分析
当误差较大,且某类错误出现次数较高 - 如何进行误差分析
简单的人工统计步骤,错误分析,可以节省大量时间,可以迅速决定什么是最重要的,或者最有希望的方向。通过统计不同错误标记类型占总数的百分比,可以帮你发现哪些问题需要优先解决,或者给你构思新优化方向的灵感。
- 如何解决误差
- 找一组错误样本,可能在你的开发集里或者测试集里,观察错误标记的样本,看看假阳性(false positives)和假阴性(false negatives),统计属于不同错误类型的错误数量。在这个过程中,你可能会得到启发,归纳出新的错误类型
- 如果你过了一遍错误样本,然后说,天,有这么多Instagram滤镜或Snapchat滤镜,这些滤镜干扰了我的分类器,你就可以在途中新建一个错误类型。
是否值得去人工修正标记出错的数据
- 不管用什么修正手段,都要同时作用到开发集和测试集上,开发和测试集必须来自相同的分布。开发集确定了你的目标,当你击中目标后,你希望算法能够推广到测试集上,这样你的团队能够更高效的在来自同一分布的开发集和测试集上迭代。
- 看看整体的开发集错误率,开发集上有10%错误,其中0.6%是因为标记出错,剩下的占9.4%,是其他原因导致