Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

最新推荐文章于 2024-02-27 17:33:30 发布

Tyyy`

最新推荐文章于 2024-02-27 17:33:30 发布

阅读量2k

点赞数 1

分类专栏：论文文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/soulesstitan/article/details/122434064

版权

MATRN是一种创新的文本识别网络，它通过互动增强模块实现视觉和语义信息的深度融合，提高了识别效果。网络结构包括视觉特征提取、字符特征提取、位置信息编码以及动态融合模块。在训练过程中采用mask策略，实验结果显示，MATRN在多模态文本识别任务上取得了最先进的性能。

摘要由CSDN通过智能技术生成

文本识别网络不断地进步，从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分，分别是VM和LM。

那么目前的VM和LM结合的方法可以总结为以下四类。VM之后接LM，VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN，ABINet的都是这种方法。

第二种类型是VM辅助LM，就像joint visual semantic这篇文章，多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段，都会添加噪声，并重新解码。

第三种类型是LM辅助VM，就像from two to one这篇文章，通过LM的信息来增强视觉特征进行解码。

那么作者提出了个问题，LM和VM该如何更好地结合，互相帮助以达到更好地效果。提出了MATRN这第四类的文本识别网络，即LM和VM相辅相成，互相帮助。

整体的网络结构如图所示：

提取视觉特征加入通过位置attention获得语义特征，语义特征和视觉特征通过互相加强模块得到了语义辅助视觉的增强特征和视觉辅助语言的增强特征。二者再动态结合之后获得最后的输出结果。特别地，改输出结果可以多次进行迭代，进行更新。

然后具体介绍网络结构的细节部分，首先是视觉特征提取模块。该部分就沿用了ABINet中的视觉特征提取模块（同SRN）。之后的字符特征提取和DAN一样，通过一个简单的Unet的网络获得字符的attention map。之后的话解码获得最后的字符结果。

为了对齐视觉和语义这两个模态的特征，作者提出了位置信息编码到语义信息的模块。通过加上一个对齐信息使得二者对齐。位置信息和语义信息结合通过transformer结合。分别使用视觉特征和语义特征作为query进行计算，分别获得了语义辅助视觉的增强特征和视觉辅助语义的增强特征。最后二者的结

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。