论文讲解:添加链接描述
步骤:
- (2.3)生成一个帧级别的子图。将人物特征、人物对特征、视觉场景特征、文本特征作为节点,利用GCN传播信息
- (2.4)利用两个LSTM分别聚合人物和人物对特征,得到子片段级别的人物和人物对特征表示。
- (2.5)将步骤2的人物和人物对特征输入到GCN中,得到片段级别的增强表征后的人物对特征,从而识别社交关系,生成片段级别的人物社交关系图。
- 因为没有帧级别的标注,所以用弱监督训练。
- 最后基于人物特征相似性(特征的余弦相似性大于阈值),合并片段级别的社交关系子图,生成整个视频的人物社交关系图。