![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文翻译
文章平均质量分 92
vivigreeeen
这个作者很懒,什么都没留下…
展开
-
【论文翻译】Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Rec
摘要语言信息对场景文本识别有很大的帮助。然而,如何有效的在端到端的深层网络中对语言信息进行建模仍然是一个挑战。本文认为,语言模型的局限性在于:1)隐式语言建模;2)单向特征表示;3)带有噪声的语言模型。相应的,我们提出了一种自治的、双向的、迭代的场景文本识别网络ABINet。首先,该算法通过阻断视觉和语言模型之间的梯度流动来实现明确的语言建模。其次,我们提出了一种基于双向特征表示的新型双向完形填空式网络(BCN)的语言模型。第三,我们提出了一种语言模型迭代修正的执行方式,可以有效的缓解噪声输入的影响。此原创 2021-04-03 15:56:08 · 1111 阅读 · 0 评论 -
【论文翻译】Decoupled Attention Network for Text Recognition
本文为本菜鸡手动翻译,如有错误,希望各位大佬不吝告知,谢谢!摘要由于应用的多样性,文本识别吸引了很多研究者。边缘已经被剪裁好的文本识别方法主要是基于注意力机制的。然而,由于循环对齐操作依赖于历史解码结果,大多应用注意力的方法往往会面临严重的对齐问题。为了改善这个问题,我们提出了一种去耦注意力网络(DAN),对历史解码结果和对齐操作之间进行解耦合。DAN是一个有效的、灵活的、鲁棒的端对端文本识别器,它包括了三部分:1)一个特征编码器(FE),它从输入图像中提取了可视化特征;2)一个卷积校准模块(C.原创 2021-03-30 23:32:44 · 682 阅读 · 0 评论 -
【论文翻译】OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page Text Recognition by lear
本文是本菜鸡自己翻译的,有些地方按照自己的理解来的,后期大概率还会就本文进行解读,如有错误,希望各位大佬不吝指出,非常感谢。摘要文本识别是计算机视觉的一项主要任务,具有一系列相关挑战。其中一个传统的挑战是文本识别和分割的耦合性质。在过去的几十年里,这个问题已经逐渐得到了解决,从基于分割的识别到无分割的方法,带来了更准确和更低成本的数据标注。我们从无分割单行识别向无分割多行/整页识别迈出了一步。我们提出了一种新颖且简单的神经网络模块,称为OrigamiNet,它可以增强所有CTC训练的全卷积单行文.原创 2021-03-28 09:56:59 · 407 阅读 · 0 评论