新视角：用图像分类来建模文字识别也可以SOTA

最新推荐文章于 2024-06-20 09:39:30 发布

我爱计算机视觉

最新推荐文章于 2024-06-20 09:39:30 发布

阅读量432

点赞数

文章标签：人工智能计算机视觉深度学习机器学习 css

点开名片 ↓↓↓ ，关注公众号

本文为52CV粉丝mileistone投稿，介绍了一篇最新OCR方向的论文，大胆直接使用图像多分类进行文本识别。

我们最近做了一个文字识别的工作：“ CSTR: A Classification Perspective on Scene Text Recognition ” 简单介绍如下：

金属质感分割线

当前文字识别有两种建模视角：seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列（比如CNN、RNN、Transformer encoder或者它们的组合），然后对特征序列进行decode（比如CTC、RNN、attention based RNN、Transformer decoder等）。

segmentation-based的方法首先定位出字符的位置，然后识别出各个位置的字符，最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based，但是seq2seq-based的方法pipeline复杂（大部分还需要STN模块来对图像进行矫正）。

segmentation-based的方法简洁很多，但是需要字符级别的标注，字符级别的标注成本高昂，在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角：classification-based。

即将文字识别任务建模为图像分类，整体pipeline比segmentation-based的方法更简单，而且不需要字符级别的标注。

classification-based的模型像其他图像分类模型一样容易实现，因为是纯卷积所以训练、推理非常高效。

CSTR模型结构，ϕ为end token

我们的classification-based模型即CSTR，在六个常用的公开数据集上的效果如下表所示。

我们的模型没有STN模块，仅仅只有一个图像分类器，训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ)，仅使用单词级别的标注，测试的时候没用任何TTA，整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr中开源。

论文：https://arxiv.org/abs/2102.10884

代码：https://github.com/Media-Smart/vedastr

END

备注：OCR

OCR交流群

扫码备注拉你入群。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

我爱计算机视觉

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。