原文参考:Detecting and Recognizing Human-Object Interactions
InteractNet 是由 Facebook AI Research(FAIR) 提出的一种针对人物交互检测识别技术(Human-Object Interactions)的优化算法。
InteractNet 的核心点在于 Target Localization(即目标定位),通过研究目标人的外表特征(target human appearance)来预测人体所实施动作的受体对象(target object of interaction)所处的大概位置。
如上图所示,该网络模型主要分为三个模块:
- a) 目标检测(object detection branch):该模块整体采用 Faster R-CNN 网络,输出为目标识别框(bounding box)以及每个识别目标人或物的类别评分(class scores / confidence);
- b) 以人为识别中心的分支网络(human-centric branch):该分支结构的第一个任务是,针对每个检测到的人 bh,通过 RoiAlign 进行特征提取分析,相较于每个动作 a 进行分类评分,即针对每对(bh,a)分配一个分数 sah ; 此外,该分支网络是 InteractNet 的核心,用于预测 target localization μ