mysql ignore caps_TextCaps竞赛总结

本文总结了TextCaps挑战赛中的方法,重点在于OCR的改进。使用M4C-captioner模型,结合CRAFT和ABCNet进行文本检测,通过四阶段STR框架提升识别效果。实验结果显示,新方法显著提升了OCR性能,CIDEr得分增加,表明模型性能的提升。
摘要由CSDN通过智能技术生成

此前参与CVPR TextVQA challenge和TextCaps challenge,分别获得第三名与第一名,在此总结一下TextCaps竞赛中所使用的方法,以备后续研究时参考。图文均来自竞赛后提交的总结报告。

c5672e422e206f2201bb5d8395032b3c.png

OCR analysis

我们的模型基于M4C-captioner模型,主要关注OCR的改进。为了直观地了解当前的OCR性能,我们对Rosetta的OCR结果和训练集的参考标题进行了分析,发现在所有字幕中的4006080个单词中,有198295个(4.95%)单词出现在Rosetta的OCR结果中。其余词汇中有2961855个词(73.93%)包含在词汇表中,这意味着剩下的22.04%的词无法用模型进行预测,从而设定了准确度的上限。这说明我们应该重点关注OCR的改进。

9bda8a30a50663d7f6054b5f1a945337.png

Pipeline

我们的模型以M4C-captioner为基础,使用ABCNet和CRAFT进行文本识别,使用四阶段STR框架进行文本识别。利用仿射变换将不规则文本区域调整为矩形。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值