论文阅读:ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)

在这里插入图片描述
第一阶段:triplet proposal
输入图片并用卷积层提取特征,
先看上面,使用RPN提取目标物体,假设得到N个物体
那么排列组合后就有了N2个主宾对,为了去除冗余,对三元组进行NMS,
具体NMS的方法如下:
下图中的#1、#2、#3是bbox的编号,o(b1,b2)是b1和b2的IoU,设o(b1,b2)=0.6,o(b3,b4)=0.5,
o(<b1,b2>,<b3,b1>)的意思是对于b1-b3和b2-b1这两个三元组,作为主语的b1b3的IoU是0,作为宾语的b2b1的IoU是0.6,两个三元组的overlap就是这两个交并比之积,小于阈值视为有效的三元组。
第三行的b1-b3和b2-b4由于overlap大于阈值,b2-b4视为重复的主宾对。
在这里插入图片描述
经过三元组NMS后,得到了主语宾语和union box的bbox。

第二阶段:利用triplet proposal对主谓宾进行分类
从shared conv layers出来后,往下的网络
先是三层使用了PMPS进行信息交互的卷积层,再把triplet proposal映射到这样的特征图中做ROI Pooling,再经过三层使用了PMPS的fc,得到三者的box reg以及分类结果

PMPS:Phrase-Guided Message Passing Structure
具体实现如下图:
有两种方式实现,a是parallel型,应用在卷积层,b是sequential型,应用在fc
parallel:
先将sub和obj的信息gather到pred
在这里插入图片描述
再将pred的信息broadcast到sub和obj在这里插入图片描述
sequential要用两层实现,parallel只用一层实现
在这里插入图片描述
最终模型只在conv5-3使用了parallel,在fc6和fc7使用了sequential在这里插入图片描述
训练流程:
先不使用PMPS,下面的三个分支当做普通的detector;然后加入PMPS进行训练

-------------------------------------------一些碎碎念--------------------------------------------------
大师姐回实验室了。
老师开始布置活了。
让我们说说有什么进展。
进展就是没有进展。
实验室电脑还黑着屏呢。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值