1. Relation Parsing Neural Network for Human-Object Interaction Detection
1.1 总述
提出一种关系解析神经网络RPNN,由两部分组成:物体-身体部位图和人体-身体部位图,前者捕获身体部位与周围物体的关系,后者推断人体与身体部位的关系,并组合身体部位上下文信息以预测动作。这两个图由动作传递机制关联。
总的来说,网络基于人的特征预测动作发生的位置(参与交互物体的位置)的密度;基于物体特征预测每个动作的物体与人之间交互的概率。
1.2 网络结构
首先输入图像到Mask RCNN进行检测边界框和关键点,然后基于人框和关键点构建身体部位框,接着使用ROI Align提取人框的、物体框的、身体部位框的特征。然后使用这些特征构建Human-Bodypart Graph和Object-Bodypart Graph。然后通过消息传递更新Object-Bodypart Graph,细化后的Object-Bodypart Graph的细化的身体部位结点特征送入Human-Bodypart Graph以初始化该图中的身体部位结点,接着通过消息传递更新Human-Bodypart Graph。最终两个图分别得到细化特征 f h ′ f_{h}^{\prime} fh′和 o h ′ o_{h}^{\prime} oh′。 f h ′ f_{h}^{\prime} fh′特征用于预测动作概率以及动作发生的位置密度 g ( h , o ) a g_(h,o)^a g(h,o)a; o