AE TextSpotter_Learning Visual and Linguistic Representation for Ambiguous Text稿

简介

  scene text spotting旨在更好地检测和识别文本内容。但是在需要检测的文本之间存在巨大的空格,或者一张图片中,文字的排列顺序既可以是水平也可以是垂直排列的时候,就会出现检测不准确的情况。错误地将一个文本区域分为两个,或者是错误地标注了文本排列顺序。这是因为这些检测的方法都仅仅使用了视觉信息,而语言信息只是单单用来做后处理(比如说字典)。作者希望通过添加语言信息,并将语言信息结合到网络的训练过程中,来辅助视觉信息,最终解决这些错误的问题。

模块

  这个网络分为三个模块,检测识别和重排序模块。首先是提取特征的部分,作者在这使用的是resnet50+fpn的网络结构,之后通过rpn网络来产生文本区域(文本行,文本列)和字符区域。(rpn,region proposal network,将之前提取到的特征分两支转换,一支用来预测anchor是否为正样例,一支用来预测每个anchor的,另外一支用来预测x,y的偏移量和w,h的尺度因子)。TDM和CRM分别预测出bounding box和文字内容。最后通过语言模型打分,结合视觉的分数,将低分数(不正确的文本区域)排除。
  TDM的目标是为了以高召回率来检测出所有的候选框。由于这个目标,因此这个文本检测器需要能够通过分类的分数和nms的分数来控制以保证高召回。因此这部分参照的是mask-rcnn。经过roi align的特征来预测和bounding box的偏移量,之后另一分支用来预测mask。最后用一个宽松的分数和nms限制来获得候选框。
  CRM的模块则包含了一个检测头和一个匹配算法。通过检测头获得字符框和字符的类别。检测头和TDM的差别在于特征

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值