摘要 对于多方向文字,传统的CNN-RNN-CTC方法并没有研究稳定有效的特征表示。本文提出了一种原始的特征学习方法来获取场景文本图像的内在表示。将特征图建模为无向图的节点,用池化聚合和加权聚合来学习原始表示,并通过图网络转化为高级视觉文本表示。用视觉文本表示来构造PREN。而且把视觉文本表示融合进一个基于2D注意力机制的编解码网络,该网络缓解了注意力机制的错位问题。在中英文场景上获得了不错的效果。