前言
这是一篇2018年发表在CS上的论文,原文地址点这里
笔记
- 这篇文章主要的贡献有两个,一是在原来HICO数据集的基础上增加了instance annotation,即动-名词对的文字注释。二是提出了HO-RCNN网络。
- 注释部分没有什么好说的,比较有趣的是HO-RCNN网络,图三就是网络的结构,从图上来看,输入的图片被分成了三路,经过裁剪resize之后通过CNN提取特征,最后分别分类得到的损失相加作为最终整个网络的损失,以此来训练整个网络。
- 关键的地方在于网络的输入部分,三个支路简单来说就是一张图片的人物、物体、人物+物体。送进网络的其实就是先在一张图中框出人和物体,然后将人物框、物体框、人物-物体对框,但是由