文本检测与识别论文、代码整理

最新推荐文章于 2024-08-06 18:41:52 发布

原创最新推荐文章于 2024-08-06 18:41:52 发布 · 875 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #机器学习

本文概述了CVPR2020中关于文本检测与识别的最新研究，包括DeepRelationalReasoningGraphNetwork和ContourNet在文本检测方面的创新，以及OnVocabularyRelianceinSceneTextRecognition等在场景文本识别领域的突破，提出了多种优化方案以提高检测精度和识别泛化能力。

CVPR2020文本检测与识别：
文本检测：
[1].Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
作者 | Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Chang Liu, Chun Yang, Hongfa Wang, Xu-Cheng Yin
单位 | 北京科技大学；中国科学技术大学人工智能联合实验室；腾讯科技（深圳）
代码 | https://github.com/GXYM/DRRG
论文贡献：通过基于CNN的text proposal network利用共享特征来估计文本组建的几何属性；然后局部图可以大致建立不同文本组建的链接；然后使用深度关系推理网络将进一步推断出文本组件与其相邻组件之间的链接可能性；最后根据推理结果将文本组件聚合为整体的文本实例。
不足：本文只实现了检测功能，还没能实现端到端的预测。
[2].ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection
作者 | Yuxin Wang, Hongtao Xie, Zheng-Jun Zha, Mengting Xing, Zilong Fu, Yongdong Zhang
单位 | 中国科学技术大学
代码 | https://github.com/wangyuxin87/ContourNet
论文贡献：优化了两个问题：
1）伪召回（False Positives）多：之前方法：基于上下文信息，全局与局部关系，以及纹理信息建模；本文方法：将文本检测分解为水平方向和垂直方向的轮廓检测，通过两个检测的联合响应来抑制伪召回；
2）文本尺度变化剧烈时识别精度变差：之前方法：利用融合多尺度特征来预测边界框；本文提出利自身状态信息建模以及不敏感的指标*（loss）来优化网络监测。
场景文本识别：
[1] On Vocabulary Reliance in Scene Text Recognition
作者 | Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao
文章共享：当前文字识别泛化能力弱，词汇依赖严重（只记住了在训练时见过的词汇），本方法优化了当前文字识别器的泛化能力（图像上的词出现在训练词汇表之内，当前主流方法可以很好识别；而对于单词不在训练词汇表之内的图像，主流方法表现差强人意）；实现方法：提出了一种全新的学习策略，将带有注意力机制的解码器和带有分割的解码器同时应用于模型，使其在训练中实现互补。
[2].SCATTER: Selective Context Attentional Scene Text Recognizer
作者 | Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, R. Manmatha
[3].Towards Accurate Scene Text Recognition With Semantic Reasoning Networks
单位 | 国科大；百度；中科院
代码 | https://github.com/chenjun2hao/SRN.pytorch
[4].SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
作者 | Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang
单位 | 中科院；国科大
[5]*.ABCNet: Real-Time Scene Text Spotting With Adaptive Bezier-Curve Network
作者 | Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang
单位 | 华南理工大学；阿德莱德大学；
代码 | https://github.com/Yuliang-Liu/bezier_curve_text_spotting
备注 | CVPR 2020 Ora
文章贡献：1、提出用参数化的贝塞尔曲线拟合任意形状的文本；该种方法消耗计算资源少，并且效率和进度高。
2、提出了一种新的特征提取结构BezierAlign layer，可以将提取任意形状的示例卷积特征利用该种结构实现特征对齐，使得整个分支可以自然连接到整个结构中。
数据集链接：ctw https://ctwdataset.github.io/（中）
Total-Text：http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
COCO-Text：https://vision.cornell.edu/se3/coco-text-2/
ICDAR2019 数据集：http://rrc.cvc.uab.es/?ch=12 （中）
2020年之前：https://blog.csdn.net/peaceinmind/article/details/51387367#%E6%95%B0%E6%8D%AE%E9%9B%86