《Knowledge Aided Consistency for Weakly Supervised Phrase Grounding》论文笔记

KAC Network

在这里插入图片描述

tensorflow代码

3.1 Framework

本文提出的KAC Network分两个分支,一是visual consistency branch(V branch) 和一个 language consistency branch(L branch)
L branch:用attention model 选出query-related proposals,再经reconstruction model重构出input query q,q与原输入query q 相比,得loss:Llc
V branch: 根据input query 重构出候选proposals的位置参数,与原proposals的位置参数相比,得loss:Lvc

3.2 Knowledge Based Pooling(KBP)

将proposal ri 用CNN处理后,得到对应的visual feature vi (维度为dv)和概率分布 pi
1)input query q 先通过NLP分析器进行分析,找出所有名词
2)根据概率分布pi找出proposal的所属类别名称
3)proposal ri 的knowledge kiq 定义为其类别名称与query中名词的相似度(文章中是余弦相似度)

3.3 Visual Consistency

weakly supervised任务中没有proposals的groundtruth,可以把 kiq 作为guidance,也就是影响权重

  • input query q 经过LSTM处理得embedding vector q’’(维度为dq);proposal ri 经过CNN处理得 vi(维度为dv);image x 经CNN处理得 v(维度为dv
  • multimodal feature viq:把上一步得到的vectors concatenate 之后映射到m维空间内:
  • attention model 通过一个全连接层得到5维的predicting vector:
    在这里插入图片描述
    sip[0]表示 ri 与query q 的相似度,sip[1]~ sip[4]表示proposal的位置参数
  • loss: Lvc
    在这里插入图片描述
    在这里插入图片描述
3.4 Language Consistency

这一部分主要借鉴《Grounding of Textual Phrases in Images by Reconstruction》[34]这篇论文。[34]中:
在这里插入图片描述
本文中:
在这里插入图片描述
下划线的地方应该就是本文对[34]修改的地方。接下来和[34]中一样,vkatt 作为解码LSTM的输入,预测出重构q 的文本序列。
loss:Llc
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值