上限分析:判断机器学习流水线中哪个模块最值得花时间去提高性能的。
上面是图像的字符检测和识别系统:分成几个模块进行
Text detection -从图像中检测出含字符的区域
character segmentation -将含字符的区域进行字符的分割
character recognition -将分割后的字符进行识别
如果,我们已经实现了整个系统,识别率效果并不高,那么我们如何接下去要优化哪个模块来提高整个系统的性能呢?
假设:我们实现的整个系统的正确率是72%
假设1:我们人为的将Text detection的正确率提到100%,然后整个系统的正确率到了89%
假设2:我们人为的将Text detection和character segmentation的正确率提到100%,然后整个系统的正确率到了90%
假设3:我们人为的将Text detection和character segmentation和character regnition的正确率提到100%,然后整个系统的正确率到了100%
分析:Text detection的优化可以提高系统性能17%,character segmentation的优化可以提高1%,character recognition的优化提高10%,综合以上的分析,我们应该花时间在Text detection 和character recognition的优化上。继续优化character segmentation没价值。