新视角：用图像分类来建模文字识别也可以SOTA

最新推荐文章于 2023-04-18 12:55:29 发布

等待破茧

最新推荐文章于 2023-04-18 12:55:29 发布

阅读量283

点赞数

分类专栏：机器学习深度学习文章标签：字符识别

原文链接：https://zhuanlan.zhihu.com/p/352348349

版权

深度学习同时被 2 个专栏收录

44 篇文章 13 订阅

订阅专栏

29 篇文章 14 订阅

订阅专栏

转载自 https://zhuanlan.zhihu.com/p/352348349

新视角：用图像分类来建模文字识别也可以SOTA

深度学习（Deep Learning）话题下的优秀答主

我们最近做了一个文字识别的工作：CSTR: A Classification Perspective on Scene Text Recognition，简单介绍如下。

当前文字识别有两种建模视角：seq2seq-based和segmentation-based。

seq2seq-based的方法首先将图片encode为特征序列（比如CNN、RNN、Transformer encoder或者它们的组合），然后对特征序列进行decode（比如CTC、RNN、attention based RNN、Transformer decoder等）。

segmentation-based的方法首先定位出字符的位置，然后识别出各个位置的字符，最后将字符组合成字符串。

过去达到SOTA的文字识别方法大部分是seq2seq-based，但是seq2seq-based的方法pipeline复杂（大部分还需要STN模块来对图像进行矫正）。

segmentation-based的方法简洁很多，但是需要字符级别的标注，字符级别的标注成本高昂，在实际生产环境中不太可能使用这样精细的标注方式。

我们提出了一种图像分类的建模视角：classification-based。即将文字识别任务建模为图像分类，整体pipeline比segmentation-based的方法更简单，而且不需要字符级别的标注。classification-based的模型像其他图像分类模型一样容易实现，因为是纯卷积所以训练、推理非常高效。

CSTR模型结构，ϕ为end token

我们的classification-based模型即CSTR，在六个常用的公开数据集上的效果如下表所示。我们的模型没有STN模块，仅仅只有一个图像分类器，训练数据集为常用的两个合成的数据集SynthText (ST)和MJSynth (MJ)，仅使用单词级别的标注，测试的时候没用任何TTA，整体效果基本达到SOTA。

CSTR与业界经典模型指标比较

代码将在我们的文字识别工具箱vedastr中开源。

CSTR: A Classification Perspective on Scene Text Recognition

github 代码： https://github.com/Media-Smart/vedastr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
新视角：用图像分类来建模文字识别也可以SOTA

转载自 https://zhuanlan.zhihu.com/p/352348349新视角：用图像分类来建模文字识别也可以SOTA深度学习（Deep Learning）话题下的优秀答主我们最近做了一个文字识别的工作：CSTR: A Classification Perspective on Scene Text Recognition，简单介绍如下。当前文字识别有两种建模视角：seq2seq-based和segmentation-based。seq2seq-based的方法首先将图.
复制链接

扫一扫

专栏目录

等待破茧 CSDN认证博客专家 CSDN认证企业博客

码龄8年

55: 原创

51万+: 周排名

31万+: 总排名

92万+: 访问

: 等级

6044: 积分

513: 粉丝

602: 获赞

74: 评论

4124: 收藏

私信

关注

热门文章

分类专栏

最新评论

CVPR 2023 workshop 论文已出，CV前沿都在这里了！
不知954: 请问第20个可以提供那60篇论文吗
[图像复原](MPRNet)Multi-Stage Progressive Image Restoration
与蝉: 你解决了吗，我的每次都是200多
waste-datasets-review - 包含任何类型的垃圾、垃圾、废物和垃圾的图像数据集列表
FunnyWii: 原文 https://github.com/AgaMiko/waste-datasets-review 这机翻看的我脑子都要烧了
一文多图搞懂KITTI数据集下载及解析
一寸光阴不可轻: 你好，i请问kitti可视化那部分用到的什么软件
【人脸检测】 Tinaface复现（数据集准备、测试与评估）
April_Mon_7788: 最近遇到这个问题，请问作者有遇到过吗：[ ] 0/3226, elapsed: 0s, ETA:Traceback (most recent call last): File "configs/trainval/tinaface/test_widerface.py", line 101, in <module> main() File "configs/trainval/tinaface/test_widerface.py", line 96, in main results = test(engine, data_loader, args.outdir) File "configs/trainval/tinaface/test_widerface.py", line 71, in test for i, data in enumerate(data_loader): File "/home/lixinru/anaconda3/envs/openmmlab/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 363, in __next__ data = self._next_data() File "/home/lixinru/anaconda3/envs/openmmlab/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 989, in _next_data return self._process_data(data) File "/home/lixinru/anaconda3/envs/openmmlab/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 1014, in _process_data data.reraise() File "/home/lixinru/anaconda3/envs/openmmlab/lib/python3.8/

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。