学习笔记--Structural-RNN: Deep Learning on Spatio-Temporal Graphs

本文介绍了Structural-RNN(S-RNN),这是一种针对空时图(st-graphs)的深度学习框架。S-RNN通过RNN的混合结构解决了传统RNN在处理空时结构时的局限性,适用于人类动作建模、预测、活动检测等任务。文章详述了st-graphs的表示法、S-RNN的构建方法以及训练过程,并通过实验展示了S-RNN相比无结构化RNN和非深度学习方法的优势。
摘要由CSDN通过智能技术生成

论文链接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Jain_Structural-RNN_Deep_Learning_CVPR_2016_paper.pdf
此为原创笔记,如需转载请注明

Structural-RNN: Deep Learning on Spatio-Temporal Graphs

  [–Ashesh Jain, etc… ICCV2016]


1、Motivation

• 当前的深度学习RNN框架缺少一个直观的高端(相对于底层、隐藏层)的空时结构;
• 计算机视觉先天潜在高端结构,如果能够去很好的拟合出这个结构,那势必在此领域上有所突破;
• 空时结构能够很好的模拟现实世界的绝大多数问题,用空时结构作为高端架构进行RNN的序列学习是值得尝试探究的,本文因此而作。
• 由于S-RNN是以RNN为基本单元模块的,因此存在如下挑战:

  1. 既要尽量的丰富RNN的混合搭建,从而确保学习到复杂的(函数关系)功能;
  2. 但也要保证RNN混合搭建体能够在面对不同的时空图(st-graph)时是能够度量的,换句话说就是对于一般的st-graphs都能运作起来(scalable)。

2、Contributions

• 本文提出了一个通用的方法,这个方法使得一个任意的st-graph构架的问题能够转化为一个(学习参数)丰富而可测量,且可以共同训练的以RNN为基本单元的混合结构;
• 为了突出结构化的优点,实验对比表明S-RNN较无结构化的(plain-vanilla)RNN性能要好;
• 为了突出RNN基本单元的优点,实验对比也表明S-RNN较其他非深度学习的结构化方法在空时问题上性能要好。


3、Overview

本文的基本目标有三个:
a. 提出一种通用的、不受限于特定问题的(空时)算法框架;
b. 提供一种将st-graph转化成可测量且具有丰富前馈的RNN混合架构的方法;
c. 确保网络参数是可以共同训练的。

3.1 st-graphs表示法

  st-graphs(spatio-temporal graphs),是通过图结构来表示现实中时间和空间推理的活动,一般情况下st-graph中有三个基本成分,
    在这里插入图片描述
分别是物理对象(抽象成图上的点,一般包含人和物),空间上的边(表示对象在空间上的联系)和时间上的边(表示对象在时间上的联系)。总的来说st-graph由实物抽象的点和两类边构成,是一个图结构。
  Figure 1中,中间图层即为一个st-graph。其中,蓝点和红点即为实物点,蓝点表示物品(碗和微波炉),红点表示人;黑边和绿边是空间上的边,黄边和紫边表示时间上的边。通过这个图也可以看到点和边也是被细分类了的,后续细讲。
  在图中,点的特征可以是人和物的姿态(pose),而边特征可以是相对位置关系。点的标签(label)一般有两种(人物交互HOI),分别是人类行为活动和物品的直观功能(affordance)。

在这里插入图片描述

Affordance:在人机交互(HCI)领域

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值