《Context and Attribute Grounded Dense Captioning》笔记

CVPR 2019

《Context and Attribute Grounded Dense Captioning》这篇文章设计了一个端到端基于文本和属性的描述架构,由上下文视觉挖掘模块和基于多层属性的描述生成模块两部分组成,同时还结合了来自分层语言的辅助监督,以增强学习的描述的独特性。具体架构如下图所示:

第一部分,上下文特征提取器(CFE)。先用Faster RCNN学习输入图像的视觉特征,获得图像的语义特征。这些语义特征通过RPN生成一系列候选区域(ROIs)。基于这些ROI特征,引入CFE生成全局、局部以及相邻三个方面的特征线索构成多尺度上下文线索。全局特征就是整个图像的特征,局部特征就是图像中目标区域的特征。剩下主要计算相邻区域的特征。根据图像去噪中非局部均值的方法,计算相邻特征公式为:

 

其中,是区域的外观相似度,是区域的定长局部特征。相似度g是基于高斯函数的互相关,是互相关的点积相似性。这样就可以获得图像中每个目标ROI和它的邻近ROI的相似度图。一般的目标检测算法会生成冗余的ROI,这会影响邻近特征。基于与目标区域的IoU排序邻近区域的ROI,采样前k个候选作为邻近区域。

第二部分,基于属性的描述生成器(AGCG)。这个描述生成器包含两个部分:

1、上下文线索聚合器。采用多个LSTM单元,分层聚合多尺度上下文特征进局部特征。局部分支视为目标的主干,全局和邻近分支作为补充信息。首先自适应的组合全局及邻近线索,再将该结果自适应的融合进局部线索。不同层次的特征通过自适应权重调节,这些权重在训练期间优化。

2、基于属性的由粗级到细级生成器。除了基本的描述语句的损失外,该模型还添加了语言属性损失作为辅助监督。语言属性损失分为粗级到细级的两部分。训练期间,属性损失为每个属性的二元分类损失。

训练期间,语言属性由LSTM的输出预测。通过使用NLTK工具逐项处理训练语句,获得分层语言属性。从训练句子中提取四类单独的关键词或属性:名词、形容词、动词、介词。这些大类下的单词保留原形式作为细分级别的属性。然后在高层语义上聚合属性,将具有相同概念的不同分词或复数形式归一化为统一形式。用Leacock-Chodorow距离聚合有相似语义的标签。这些作为粗级属性。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值