2020-07-02 CVPR2020 V&L论文讨论(3) 笔记

[1] Bi-directional Relationship Inferring Network for Referring Image Segmentation

  • 卢湖川老师
  • 已有方法:语言->视觉,没有视觉->语言。(->:指导)

[2] A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension

  • 北航刘偲、中山李冠斌
  • 现有方法:两阶段(生成proposals、选最优proposal)比较慢
  • 将相关滤波引入跨模态领域,用language feature当做kernel,在image feature上做相关滤波,得到响应图(bbox的中心),再回归w和h。
  • 像极了SiamRPN,只不过一个branch改成了另一个模态。

[3] Vision-Dialog Navigation by Exploring Cross-modal Memory

  • 跨模态记忆问题?
  • 导航:只基于对话历史->加入视觉模块

[4] VQA with No Questions-Answers Training

  • 不用answer就可以训练。
  • 通过问题图,生成问题,生成的问题的答案没有意义。

[5] Referring Image Segmentation via Cross-Modal Progressive Comprehension

  • 额,没太听懂。

[6] Local-Global Video-Text Interactions for Temporal Grounding

[7] Hypergraph Attention Networks for Multimodal Learning

总结

这次结束的超级快,一小时20分钟。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值