论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Jain_Structural-RNN_Deep_Learning_CVPR_2016_paper.pdf
此为原创笔记,如需转载请注明
Structural-RNN: Deep Learning on Spatio-Temporal Graphs
[–Ashesh Jain, etc… ICCV2016]
文章目录
1、Motivation
• 当前的深度学习RNN框架缺少一个直观的高端(相对于底层、隐藏层)的空时结构;
• 计算机视觉先天潜在高端结构,如果能够去很好的拟合出这个结构,那势必在此领域上有所突破;
• 空时结构能够很好的模拟现实世界的绝大多数问题,用空时结构作为高端架构进行RNN的序列学习是值得尝试探究的,本文因此而作。
• 由于S-RNN是以RNN为基本单元模块的,因此存在如下挑战:
- 既要尽量的丰富RNN的混合搭建,从而确保学习到复杂的(函数关系)功能;
- 但也要保证RNN混合搭建体能够在面对不同的时空图(st-graph)时是能够度量的,换句话说就是对于一般的st-graphs都能运作起来(scalable)。
2、Contributions
• 本文提出了一个通用的方法,这个方法使得一个任意的st-graph构架的问题能够转化为一个(学习参数)丰富而可测量,且可以共同训练的以RNN为基本单元的混合结构;
• 为了突出结构化的优点,实验对比表明S-RNN较无结构化的(plain-vanilla)RNN性能要好;
• 为了突出RNN基本单元的优点,实验对比也表明S-RNN较其他非深度学习的结构化方法在空时问题上性能要好。
3、Overview
本文的基本目标有三个:
a. 提出一种通用的、不受限于特定问题的(空时)算法框架;
b. 提供一种将st-graph转化成可测量且具有丰富前馈的RNN混合架构的方法;
c. 确保网络参数是可以共同训练的。
3.1 st-graphs表示法
st-graphs(spatio-temporal graphs),是通过图结构来表示现实中时间和空间推理的活动,一般情况下st-graph中有三个基本成分,
分别是物理对象(抽象成图上的点,一般包含人和物),空间上的边(表示对象在空间上的联系)和时间上的边(表示对象在时间上的联系)。总的来说st-graph由实物抽象的点和两类边构成,是一个图结构。
Figure 1中,中间图层即为一个st-graph。其中,蓝点和红点即为实物点,蓝点表示物品(碗和微波炉),红点表示人;黑边和绿边是空间上的边,黄边和紫边表示时间上的边。通过这个图也可以看到点和边也是被细分类了的,后续细讲。
在图中,点的特征可以是人和物的姿态(pose),而边特征可以是相对位置关系。点的标签(label)一般有两种(人物交互HOI),分别是人类行为活动和物品的直观功能(affordance)。
Affordance:在人机交互(HCI)领域