《Knowledge Aided Consistency for Weakly Supervised Phrase Grounding》论文笔记

最新推荐文章于 2023-07-17 19:10:07 发布

klrp95

最新推荐文章于 2023-07-17 19:10:07 发布

阅读量1k

点赞数 1

分类专栏：论文调研文章标签： phrase grounding 弱监督

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/klrp95/article/details/88252181

版权

本文探讨了在弱监督phrase grounding任务中，如何利用视觉和语言模型的关联以及外部知识来提升性能。提出了KAC Net，通过知识辅助一致性网络和基于知识的池化门，关注与query相关的图像区域，以提高视觉和语言的一致性，从而在Flickr30K Entities和Referit Game数据集上取得显著改进。

摘要由CSDN通过智能技术生成

目录

abstract

phrase grounding：给出一张图片和一个自然语言描述的问题，在图片中定位问题中所提到的物体。是很多问题的基础（如 image retrieval、image QA 和 video QA）。
在弱监督的场景中，图像区域 image regions（如proposals）和语言之间的映射在训练集中不存在。之前有方法通过在对predicted proposals 的 input queries 中获得的学习语言重建信息训练一个grounding system来解决这个问题。但这种优化仅仅是由语言模型的重建损失指导的，忽视了在proposals中的丰富的视觉信息及其他知识。

本文中，我们探讨了视觉和语言模型的关联，并利用互补的外部知识来促进弱监督grounding。我们提出了知识辅助一致性网络(Knowledge Aided Consistency Network，KAC Net)。为了利用在视觉特征中存在的互补知识，使用基于知识的池化（Knowledge Based Pooling，KBP）门来关注query-related proposals。

introduction

使用传统方法来训练一个phrase grounding系统需要大量的人工标注来指示输入查询与所提到的图像中对象之间的映射，浪费时间且人为因素不准确。从而引出了半监督的方法。
为了找到视觉和语言模型的关联，proposal generation sysgtem根据输入的图片产生一组候

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。