文章提出一种Scene Graph Feature Banks (SGFB)方法来将时空scene graphs和action recognition结合
Action recognition通常将actions和activities视为视频中的整体事件,受事件的原型单位是动作和物体间的交互启发,本文提出了Action Genome,这是一种将动作分解为时空场景图的表示。Action Genome能够在动作发生的时候捕捉物体和其成对关系的改变。Action Genome同时是第一个提供动作标注和时空场景图标注的大规模视频数据集(基于Charades数据集)。作者通过将Action Genome作为时空特征库,扩展了现有的动作识别模型,在Charades数据集上取得了较好的结果。通过分解和学习产生动作的视觉关系的时间变化,文中展示了层次事件分解的实用性,通过启用few-shot action recognition,仅使用10个示例就实现了42.7%的mAP。最后,以时空场景图预测的新任务为基准对现有场景图模型进行基准测试。
从Abstruct看出,文章的亮点在于把视频中的动作分解为时空场景图,即利用scene graph在时序上捕捉了物体对之间的关系,将二维图像中的场景图扩展到视频上的时空场景图。同时通过在Charades数据集上进行物体和物体间关系的标注,提出了新的数据集,并开拓了时空场景图预测的新任务。
通过时空场景图来更好的理解人和物体交互的相互作用方式,作者希望在更具可分解性和概括性的行为理解方面开辟一个新的研究方向。
具体方法:
给定一个输入视频,首先预测帧中含有的scene graphs,然后将scene graphs转换成特征表示,例如物体和关系矩阵。同时使用3D CNN来提取short-term clip的特征。最后使用feature bank operators (FBO)合并特征,对动作进行预测。
在action recognition实验中,作者发现对动作的组成部分(objects和human-object relationships)进行标注将显著改善预测的准确率
在few-shot action recognition实验中,scene graphs中额外的信息使得仅需要几个训练样例就能总结出动作类别
Future Work:
Spatio-temporal action localization: 通常的做法只是定位actors,但未来要做的不仅仅是定位actors的位置,而且要定位出进行交互的objects
Explainable action models: 作者提供了用于训练和评估可解释性模型帧级的attention标签
Video generation from spatio-temporal scene graphs:从结构视频表示中根据scene graphs来总结视频内容