每天五分钟机器学习:打造最优的机器学习流水线图片文字识别系统

本文探讨了机器学习流水线的优化策略,特别是针对OCR系统。通过上限分析,确定了流水线中文字区域识别和字符分类是影响系统准确率的关键模块。文字区域识别的改进能显著提升17.5%的准确率,而字符分类的优化也能带来20%的提升。这为优化资源分配提供了指导,确保时间用在能最大化性能改善的部分。
摘要由CSDN通过智能技术生成

本文重点

机器学习流水线是由多个模块组成的,多个模块共同组成了流水线,当一个模块效果提高了,那么整体的流水线效果就会提高,所以我们需要判断到底流水线的哪个部分最值得我们花时间来提高,换句话说哪部分提高之后,我们的流水线的结果会更好呢?

OCR流水线

 

上限分析

现在我们建造出了一个OCR流水线模型,假设此时整个系统的准确度为62%,那么我们应该改进这个流水线模型中哪个模块才可以让系统的准确率可以更快的提高呢?换句话说当前系统中哪个模块效果最不好?

OCR流水线的流程图中每一部分的输出都是下一部分的输入,上限分析中,我们选取一部分,手工提供 100%正确的输出结果,然后看应用的整体效果提升了多少,具体来说:

如果我们手动操作令文字区域识别输出的结果100%正确,此时发现系统的总体效果从62%提高到了79.5%,高达17.5%。这意味着我们应该投入时间精力来提高流水线的文字区域识别部分。

接着我们手动选择数据,让字符切分输出的结果100%正确,发现系统的总体效果只提升了 0.5%,这意味着

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻风_huanfeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值