论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

fceea4ca575f64618b5ec93168d605da.png

论文笔记整理:刘克欣,天津大学硕士

链接:https://dl.acm.org/doi/abs/10.1145/3475731.3484957

动机

视觉常识推理(VCR)任务旨在促进认知水平相关推理的研究。现有的方法仅考虑了区域-词的相似性来实现视觉和语言域之间的语义对齐,忽略了视觉概念和语言词之间的隐式对应(如词-场景、区域-短语和短语-场景)。文章提出了一种层次语义增强方向图网络,设计了一个模态交互单元(MIU)模块,通过聚合层次视觉-语言关系来捕获高阶跨模态对齐。

亮点

文章的亮点主要包括:

1.提出了一种新颖的层次语义增强方向图网络(Hierarchical Semantic Enhanced Directional Graph Network, HSDGN)用于视觉常识推理任务,该网络能够捕获不同模式间的高阶相关性,并执行清晰的推理过程。;2.提出了一个HSF层,通过探索视觉概念和语言词之间的层次语义对应,更准确地捕捉跨模态语义对齐;3.设计了一个DCGR模块,该模块可以在每个推理步骤中根据实体的重要性动态选择有价值的实体,从而使推理过程更具可解释性。

概念及模型

文章提出的HSDGN包括三个部分:

•图像和文本嵌入模块:使用自上而下的注意力提取图像的区域级特征,是以哦那个预训练的BERT提取文本的单词级特征。•模态交互单元(Modality Interaction Unit, MIU)模块:包括模态内上下文建模层和层次语义融合(Hierarchical Semantic Fusion, HSF)层。通过聚合层次视觉-语言关系来捕获高阶跨模态对齐。•方向线索感知图推理(Direction Clue-aware Graph Reasoning , DCGR)模块:利用激活信号帮助执行有向图推理,然后利用异构图注意聚合演化的图表示以获得最终结果。

模型整体框架如下:

2940c146812726ee17ce7f526f360533.png

•图像和文本嵌入模块 对于每张图片࿰

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值