前言
笔记
- 这篇文章写的非常清楚,我们直奔主题就好,作者提出了一个基于上下文注意力机制的网络,这个网络可以通过学习contextually-aware appearance特征来利用上下文信息识别HOI的模型。并且这个提出的注意力机制模型还能自适应的选取相关的以实例为中心的上下文信息去增强可能包含HOI的图像区域。
- 直接来看整个框架
比较新的东西就是红色矩形标出的context-Aware Appearance和Contextual Attention。其他部分都是之前提到过的,特别是上边的pairwise Stream和之前论文中使用的方法完全一致这里不再过多赘述。
网络的输入输出这里写的非常清楚,输入就是目标检测器FPN检测出来的bounding-box,输出就是一个三元对,人,动作,目标。 - 重点理解下边的human stream和obje