论文阅读：ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)

糖豆豆今天也要努力鸭

于 2022-02-11 11:23:29 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习文章标签：深度学习场景理解计算机视觉 cv phrase检测

本文链接：https://blog.csdn.net/qq_40349484/article/details/122847194

版权

机器学习专栏收录该内容

37 篇文章 3 订阅

订阅专栏

在这里插入图片描述
第一阶段：triplet proposal
输入图片并用卷积层提取特征，
先看上面，使用RPN提取目标物体，假设得到N个物体
那么排列组合后就有了N²个主宾对，为了去除冗余，对三元组进行NMS，
具体NMS的方法如下：
下图中的#1、#2、#3是bbox的编号，o(b1,b2)是b1和b2的IoU，设o(b1,b2)=0.6，o(b3,b4)=0.5，
o(<b1,b2>,<b3,b1>)的意思是对于b1-b3和b2-b1这两个三元组，作为主语的b1b3的IoU是0，作为宾语的b2b1的IoU是0.6，两个三元组的overlap就是这两个交并比之积，小于阈值视为有效的三元组。
第三行的b1-b3和b2-b4由于overlap大于阈值，b2-b4视为重复的主宾对。
在这里插入图片描述
经过三元组NMS后，得到了主语宾语和union box的bbox。

第二阶段：利用triplet proposal对主谓宾进行分类
从shared conv layers出来后，往下的网络
先是三层使用了PMPS进行信息交互的卷积层，再把triplet proposal映射到这样的特征图中做ROI Pooling，再经过三层使用了PMPS的fc，得到三者的box reg以及分类结果

PMPS：Phrase-Guided Message Passing Structure
具体实现如下图：
有两种方式实现，a是parallel型，应用在卷积层，b是sequential型，应用在fc
parallel：
先将sub和obj的信息gather到pred
在这里插入图片描述
再将pred的信息broadcast到sub和obj
sequential要用两层实现，parallel只用一层实现

最终模型只在conv5-3使用了parallel，在fc6和fc7使用了sequential
训练流程：
先不使用PMPS，下面的三个分支当做普通的detector；然后加入PMPS进行训练

-------------------------------------------一些碎碎念--------------------------------------------------
大师姐回实验室了。
老师开始布置活了。
让我们说说有什么进展。
进展就是没有进展。
实验室电脑还黑着屏呢。

糖豆豆今天也要努力鸭

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
论文阅读：ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)

论文阅读：ViP-CNN:Visual Phrase Guided Convolutional Nerual Network(CVPR17)
复制链接

扫一扫

专栏目录