AE TextSpotter_Learning Visual and Linguistic Representation for Ambiguous Text稿

最新推荐文章于 2021-04-28 10:46:51 发布

Tyyy`

最新推荐文章于 2021-04-28 10:46:51 发布

阅读量527

点赞数

分类专栏：论文文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/soulesstitan/article/details/108142186

版权

简介

scene text spotting旨在更好地检测和识别文本内容。但是在需要检测的文本之间存在巨大的空格，或者一张图片中，文字的排列顺序既可以是水平也可以是垂直排列的时候，就会出现检测不准确的情况。错误地将一个文本区域分为两个，或者是错误地标注了文本排列顺序。这是因为这些检测的方法都仅仅使用了视觉信息，而语言信息只是单单用来做后处理（比如说字典）。作者希望通过添加语言信息，并将语言信息结合到网络的训练过程中，来辅助视觉信息，最终解决这些错误的问题。

模块

这个网络分为三个模块，检测识别和重排序模块。首先是提取特征的部分，作者在这使用的是resnet50+fpn的网络结构，之后通过rpn网络来产生文本区域（文本行，文本列）和字符区域。（rpn，region proposal network，将之前提取到的特征分两支转换，一支用来预测anchor是否为正样例，一支用来预测每个anchor的，另外一支用来预测x,y的偏移量和w,h的尺度因子）。TDM和CRM分别预测出bounding box和文字内容。最后通过语言模型打分，结合视觉的分数，将低分数（不正确的文本区域）排除。
TDM的目标是为了以高召回率来检测出所有的候选框。由于这个目标，因此这个文本检测器需要能够通过分类的分数和nms的分数来控制以保证高召回。因此这部分参照的是mask-rcnn。经过roi align的特征来预测和bounding box的偏移量，之后另一分支用来预测mask。最后用一个宽松的分数和nms限制来获得候选框。
CRM的模块则包含了一个检测头和一个匹配算法。通过检测头获得字符框和字符的类别。检测头和TDM的差别在于特征

最低0.47元/天解锁文章

Tyyy`

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
AE TextSpotter_Learning Visual and Linguistic Representation for Ambiguous Text稿

简介 scene text spotting旨在更好地检测和识别文本内容。但是在需要检测的文本之间存在巨大的空格，或者一张图片中，文字的排列顺序既可以是水平也可以是垂直排列的时候，就会出现检测不准确的情况。错误地将一个文本区域分为两个，或者是错误地标注了文本排列顺序。这是因为这些检测的方法都仅仅使用了视觉信息，而语言信息只是单单用来做后处理（比如说字典）。作者希望通过添加语言信息，并将语言信息结合到网络的训练过程中，来辅助视觉信息，最终解决这些错误的问题。模块这个网络分为三个模块，检测识别和重排
复制链接

扫一扫