论文浅尝 | Hybrid Transformer Fusion for Multimodal KG Completion

最新推荐文章于 2025-03-22 02:53:37 发布

开放知识图谱

最新推荐文章于 2025-03-22 02:53:37 发布

阅读量1.4k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/128124888

版权

本文介绍了MKGformer框架，该框架通过M-Encoder实现视觉Transformer和文本Transformer的多层级融合，解决多模态知识图谱补全的通用性和模态噪声问题。M-Encoder包含前缀引导交互模块（PGI）减少模态异构性，以及关联感知融合模块（CAF）降低对无关图像的错误敏感性。实验结果显示，MKGformer在多模态链接预测和关系抽取任务上表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记整理：陈子强，天津大学硕士，研究方向为自然语言处理

论文链接：https://arxiv.org/pdf/2205.02357.pdf

动机

尽管多模态知识图谱补全较单模态知识图谱补全已经有了很大的改进，但仍然存在两个限制。（1）架构的通用性。不同的多模态知识图谱补全需要在不同的编码器架构之上建立特定的、单独参数化的融合模块。因此需要一个统一的模型用于各个多模态知识图谱补全任务。（2）模态噪声。当前的大部分多模态知识图谱，一个实体对应于多个图像，部分图像与实体无关，甚至包含大量噪声。

方法

针对动机中提到的两点不足，文章的方法分布两部分：

（1）论文提出提出MKGformer框架，用M-Encoder将视觉Transformer和文本Transformer进行多层级融合。可以构建一个通用的多模态知识图谱补全框架。

（2）对于模态包含的噪声信息。首先，在M-Encoder的自注意力模块提出一个粗粒度的前缀引导交互模块，为下一步减小模态异构性做好准备。其次，在M-Encoder的前馈神经网络部分提出关联感知模块，获取细粒度的图文表示，降低对无关图像的错误敏感性。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。