新视角:用图像分类来建模文字识别也可以SOTA

转载自 https://zhuanlan.zhihu.com/p/352348349

新视角:用图像分类来建模文字识别也可以SOTA

 

深度学习(Deep Learning)话题下的优秀答主

我们最近做了一个文字识别的工作:CSTR: A Classification Perspective on Scene Text Recognition,简单介绍如下。

当前文字识别有两种建模视角:seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列(比如CNN、RNN、Transformer encoder或者它们的组合),然后对特征序列进行decode(比如CTC、RNN、attention based RNN、Transformer decoder等)。

segmentation-based的方法首先定位出字符的位置,然后识别出各个位置的字符,最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based,但是seq2seq-based的方法pipeline复杂(大部分还需要STN模块来对图像进行矫正)。

segmentation-based的方法简洁很多,但是需要字符级别的标注,字符级别的标注成本高昂,在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角:classification-based。即将文字识别任务建模为图像分类,整体pipeline比segmentation-based的方法更简单,而且不需要字符级别的标注。classification-based的模型像其他图像分类模型一样容易实现,因为是纯卷积所以训练、推理非常高效。

CSTR模型结构,ϕ为end token

我们的classification-based模型即CSTR,在六个常用的公开数据集上的效果如下表所示。我们的模型没有STN模块,仅仅只有一个图像分类器,训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ),仅使用单词级别的标注,测试的时候没用任何TTA,整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr中开源。


CSTR: A Classification Perspective on Scene Text Recognition​

arxiv.org

 

 

github 代码 : https://github.com/Media-Smart/vedastr

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值