An end-to-end TextSpotter with Explicit Alignment and Attention-CSDN博客

本文链接：https://blog.csdn.net/alibabazhouyu/article/details/82859380

本文提出了一种端到端的TextSpotter，通过引入文本对齐层和字符注意力机制，提高了文本实例的卷积特征计算精度，实现了文本检测和识别的协同工作。模型在ICDAR2015数据集上取得了显著的端到端识别结果，提升了F-measure，并且可以作为一个优秀的检测器。通过字符级空间信息的明确监督，模型能够更好地关注当前字符特征，从而提升字识别性能。

摘要由CSDN通过智能技术生成

An end-to-end TextSpotter with Explicit Alignment and Attention

Tong He;, Zhi Tian;, Weilin Huang, Chunhua Shen 中国科学院深圳先进技术研究院

2018 CVPR

这是一个端到端的end-to-end方法，本文的three-fold主要贡献是：

1）我们提出了一种新颖的文本对齐层，允许它以任意方向精确计算文本实例的卷积特征，这是提高性能的关键;
2）通过使用字符空间信息作为明确监督，引入字符关注机制，使识别得到很大改善;
3）两种技术以及用于字识别的新RNN分支无缝集成到可端到端训练的单个模型中。这允许两个任务通过共享卷积特征协同工作，这对于识别具有挑战性的文本实例至关重要。我们的模型在ICDAR2015 [1]数据集的端到端识别方面取得了令人瞩目的成果，显着推进了最新的结果[2]，改进了F-measure（0:54; 0:51; 0:47）到（0:82; 0:77; 0:63），分别使用强，弱和通用词典。归功于联合训练，通过在两个数据集上实现最新的最先进的检测性能，我们的方法也可以作为一个好的检测器。

最近的text detection方法通常是使用一般的目标检测器，如faster rcnn，ssd等直接进行边框回归，或者使用语义分割的方法来预测每个像素是文本/非文本来检测。

word recognition可以转化为序列标记问题，其中最近开发了卷积递归模型。其中的一些进一步与注意力机制结合，以改善性能。但是，分别训练两个任务并没有利用卷积网络的全部潜力，其中卷积特征不被共享。如果我们清楚地理解或认识到一个词及其中所有字符的含义，我们自然会做出更可靠的决定。此外，还可以引入许多启发式规则和超参数调整成本高昂，使整个系统变得非常复杂。

最近的MASK R-CNN将实例分割任务合并到faster R-CNN [12]检测框架中，从而产生一个多任务学习模型，它共同预测每个对象实例的边界框和分割mask。我们