VALSE 文档图像智能报告整理_context-based contrastive learning for scene text -CSDN博客

本文链接：https://blog.csdn.net/shiwanghualuo/article/details/127149533

引言

这篇文章主要是整理的2022 VALSE中文档图像智能报告中所涉及到相关方向的论文以及未来趋势。
后面如有看到相关论文，还会时不时地更新到这里的。
也希望大家如遇到相关优秀论文，评论区指出，感谢。

端到端检测识别

探索检测和识别的协同作用

(CVPR2022) SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition.
- 提出了一种识别转换机制，以发挥文字检测和识别的协同作用
- 不需要单字的标注和额外的矫正器

减少对标注的依赖

(ACMMM 2022) SPTS: Single-Point Text Spotting.
- 采用自回归的方式完成检测和识别
- 采用单点检测标注进行端到端识别
(CVPR 2022) Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer.
- 提出了一种弱监督的训练方法，只需要使用识别的标注，不需要文本的位置坐标
(ACM MM 2022) You can even Annotate Text with Voice: Transcription-only-Supervised Text Spotting.
- 提出了一种弱监督的训练方法，只需要使用识别的标注，不需要文本的位置标注
- 提出一种从粗到细的交叉注意力定位机制，在没有用文本检测标注的情况下，获得近似的位置
- 使用语音作标注

去除一些不必要的组件

(CVPR 2022) Text Spotting Transformer.
- 提出了一种单编码器、双解码器的结构。一个解码器负责检测，一个解码器负责识别。
- 不需要NMS和RoI操作。

文字擦除和编辑

(ECCV 2022) Don’t Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context.
- 对低层次和高层次的语义进行学习，来帮助文本擦除和随后的背景纹理合成
- 提出一个局部全局的建模网路来提取长距离特征
(ICCV 2021) De-rendering Stylized Texts
- 将文本编辑表述为一个去渲染的问题。从给定图像中解析出潜在不合适的渲染参数
- 提出了一个矢量化模型来解析详细的文本信息

文字辅助场景理解

(CVPR 2022) Knowledge Mining with Scene Text for Fine-Grained Recognition.
- 通过挖掘场景文本背后的上下文知识来提高多模态理解任务的性能。
(ECCV 2022) Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes vis Reinforcement Learning.
- 引入方框调整器，它可以调整每个注释的文本边界方框的形状，使其与后续的文本识别模型更加兼容
- 提出了一个基于文本识别奖励来训练BoxDQN模型，以捕获最佳的注释边界框

视频文字擦除和文档矫正

(ICCV 2021) STRIVE: Scene Text Replacement In videos.
- 使用时空转换网络将所有帧中的文字矫正
- 使用图片中文字编辑的方法替换单一参考帧中的文字，并且使用时空转换网络还原矫正的文字
- 提供了一个视频文本编辑的数据集

文字识别

自监督预训练

(CVPR 2022) SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization.
- 通过相似度估计，将相邻图像块上的对应风格迁移到正确的位置，促进模型在内容和风格上的表征能力
(CVPR 2022) Pushing the Performance Limit of Scene Text Recognizer without Human Annotation.
- 提出一种基于一致性正则化的半监督框架来使用无标签的真实数据
- 提出一种字符级的一致性正则化方法，来对齐字符

对比学习

(AAAI 2022) Perceiving Stroke-Semantic Context: Hierarchical Contrastive Learning for Robust Scene Text Recognition.
- 该论文提出了一种双重上下文感知器，可对无标签的文本图像数据，同时从低级别笔划和高级别语义上下文空间中进行对比学习
(AAAI 2022) Context-based Contrastive Learning for Scene Text Recognition.
- 通过将不同上下文中相同字符的群集拉在一起，并在嵌入空间中推开不同字符的群集，抑制了过度适应特定上下文的副作用，并学习了更健壮的表示

更高效的语言模型

(ICCV 2021) Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition.
- 提出一个多阶段多尺度的注意力解码器
- 第一阶段从视觉特征进行预测，然后利用视觉语义联合信息进行细化
(ICCV 2021) From Two to One: A New Scene Text Recognizer with visual Language Modeling Network.
- 通过在视觉空间上进行遮挡字符，从而让视觉模型有学习语言建模的能力
(ECCV 2022) SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition.
- 使用语义GAN，调整支持域和目标域之间的语义特征分布
- 提出平衡注意模块，解决注意力漂移问题
(ECCV 2022) Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition.
- 提出了一个新的艺术字数据集
- 采用了角点来指导字符内部局部特征的提取
- 设计了一个字符对比性损失来对字符特征进行建模，以改善字符分类的特征表示

手写数学公式识别

(ECCV 2022) When Counting Meets HMER: Counting-Aware Network for Handwritten Mathematical Expression Recognition.
- 联合数学公式识别和符号计数
- 设计了一个弱监督的计数模块，可以在没有符号级位置的情况下预测每个符号类别的数量，然后将其插入一个典型的基于注意力的数学公式编码器-解码器模型中
(ECCV 2022) CoMER: Modeling Coverage for Transformer-based Handwritten Mathmatical Expression Recognition.
- 提出了一个注意力矫正模块，利用以前的对齐信息来调整注意力值，同时不损害其并行性
(CVPR 2022) Syntax-Aware Network for Handwritten Mathmatical Expression Recognition.
- 提出了一套语法规则，用于将每个表达式的LaTex标记序列转换为解析树。然后用深度神经网络将标记序列预测建模为一个树形遍历过程
- 提出一个新的数据集

文档图像理解

(CVPR 2022) Layout-Aware Transformer for Scene-Text VQA
- 提出了一个布局感知的预训练和架构来考虑布局信息与语义表征
- 揭示了文档文本和场景文本之间的关系。文档文本的布局信息可以很好地促进场景文本信息的理解
(ACMM 2022) Towards Complex Document Understanding By Discrete Reasoning.
- 提出了一个新的文档VQA数据集
- 提出了一个多模态编码器，将问题以及文档文字、布局和视觉图像信息作为输入，然后输出结果
(AAAI 2022) BROS: A Pre-trained language Model Focusing on Text and Layout for Better Key Information Extraction from Documents.
- 提出了一个对二维空间中文本的相对位置进行编码，并使用区域掩蔽策略利用无标签文档进行无监督学习的预训练语言模型
(ACMM 2022) LayoutuMv3: Pre-training for Document AI with Unified Text and Image Masking.
- 不依赖预先训练好的CNN或Faster R-CNN主干来提取视觉特征
- 使用统一的文本和图像掩码预训练目标
(ECCV 2022) Donut: Document Understanding Transformer without OCR.
- 提出了一个新的文档合成数据其SynthDoG
- 提出一个基于Transformer的端到端文档理解模型，并且不依赖于OCR
(CVPR 2022) XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding.
- 提出扩增的XY切割法用于正确的阅读顺序
- 提出DCPE用于生成具有本地布局信息的各种长度的位置嵌入

视频文字

(ECCV 2022) End-to-End Vdeo Text Spotting with Transformer. | 源码
- 在一个统一的框架内无缝、自然地解决文字检测和识别任务。不需要一些匹配和NMS操作
(ECCV 2022) Real-time End-to-End Video Text Spotter with Contrastive Representation Learning.
- 快速实时的视频文字spotter
- 对长距离进行建模，使用对比学习获得不同帧间的信息

文字检测

(TPAMI 2022 DBNet++) Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion.
- 提出一种可微二值化的方法
- 提出一种多尺度融合机制
(TPAMI 2022) Arbitrary Shape Text Detection via Segmentation with Probabllity Maps.
- 提出了一个基于概率分布图的任意形状文本实例分割和检测方法
- 设计了一个函数来建模一个像素属于文本像素的概率和到标注边界距离的关系

与文本布局相结合

(CVPR 2022) Towards End-to-End Unified Scene Text Detection and Layout Analysis.
- 将文本检测和版式分析统一到一个框架中
(ECCV 2022) Contextual Text Block Detection towards Scene Text Understanding.
- 将完整的文本单元视为标记，并将它们（属于相同的上下文文本块）归入一个有序的标记序列

文字超分

(CVPR 2022) A Text Attention Network for Spatial Deformation Robus Scene Text Image Super-resolution.
- 将文本先验与空间变形的文本图像对齐，在文本重建过程发挥文本的语义指导作用
- 提出了文本架构一致性损失（TSC Loss）以实现更好的SR性能
(AAAI 2022) Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution.
- 在笔画层面上设计识别英文字母和数字的规则，以提供更加精细的注意力层面的指导。
- 提出了一个笔画级别聚焦模块（SFM）,在笔画级别注意图的指导下更多地集中在笔画级别区域