文本识别网络不断地进步,从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分,分别是VM和LM。
那么目前的VM和LM结合的方法可以总结为以下四类。VM之后接LM,VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN,ABINet的都是这种方法。
第二种类型是VM辅助LM,就像joint visual semantic这篇文章,多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段,都会添加噪声,并重新解码。
第三种类型是LM辅助VM,就像from two to one这篇文章,通过LM的信息来增强视觉特征进行解码。
那么作者提出了个问题,LM和VM该如何更好地结合,互相帮助以达到更好地效果。提出了MATRN这第四类的文本识别网络,即LM和VM相辅相成,互相帮助。
整体的网络结构如图所示:
提取视觉特征加入通过位置attention获得语义特征,语义特征和视觉特征通过互相加强模块得到了语义辅助视觉的增强特征和视觉辅助语言的增强特征。二者再动态结合之后获得最后的输出结果。特别地,改输出结果可以多次进行迭代,进行更新。
然后具体介绍网络结构的细节部分,首先是视觉特征提取模块。该部分就沿用了ABINet中的视觉特征提取模块(同SRN)。之后的字符特征提取和DAN一样,通过一个简单的Unet的网络获得字符的attention map。之后的话解码获得最后的字符结果。
为了对齐视觉和语义这两个模态的特征,作者提出了位置信息编码到语义信息的模块。通过加上一个对齐信息使得二者对齐。位置信息和语义信息结合通过transformer结合。分别使用视觉特征和语义特征作为query进行计算,分别获得了语义辅助视觉的增强特征和视觉辅助语义的增强特征。最后二者的结