0. 前言
1. 要解决什么问题
- 在计算机视觉中,我们将行为(actions or activities)作为一个完整的整体。
- 但其实在认知科学(Cognitive Science)和神经学的研究中发现,人的行为被编码为一个 hierarchical part structures。
2. 用了什么方法
- 提出了一个数据集(其实是在Charades的基础上进行再标注):
- 将行为看作是 Action Genome(行为基因组)
- 即,将行为分解为时空场景图(spatio-temporal scene graphs)。
- 捕捉行为发生时,人与物体之间的关系。
- 常见数据集对比
- 所谓关系,如下图所示
- Charades中所谓的relation,指的是clip level的
- Action Genome中的relation是 image-level 的
- 人周边物体有很多,参考下图
- 说是提出了一种结构 SGFB 来处理,没细看
3. 效果如何
- 通过Action Genome可实现普通Charades分类,few-shot任务以及Spatio-temporal scene graph prediction
4. 还存在什么问题&有什么可以借鉴
-
这数据集好是好,但感觉要用到实际应用中比较麻烦……需要后续研究下细节。