VideoGraph论文笔记

VideoGraph: Recognizing Minutes-Long Human Activities in Videos

VideoGraph

如遇显示不正常,移步笔记github:

https://github.com/pzhren/Papers

Idea

  • 一个复杂的动作是由多个基本的单元动作组成
  • 虽然同一动作有很大的不同,但存在一个潜在的整体的时间结构
  • 通过建立图结构来学习这种潜在的关系

Method

LSTM和3D CNN缺点:

  • 活动时间太长
  • 同一种动作有着很大的不同:例如:煮咖啡,有多个路径可以得到最终的咖啡


v2-24ba25d831a8bdabc7fee8048ab43c87_b.jpg

VideoGraph

  • 虽然有很大的不同,但是整体的时间结构还是有的.
  • 采用基于图的表示方法:保留时间结构,可以处理更长时间的动作.


v2-a9cee7e509c0a2a082818390ccf760a8_b.jpg

采帧方法:随机采T段,每段选择连续的8帧

目标:构建人类活动的无向图

  • N:表示活动中的关键的单个动作(unit-actions)
  • edges:简单动作之间的时序关系

学习图结点nodes

Node Attention Block

v2-f9051db658e07f6e3ccaf5a26a4c6254_b.jpg

公式表述

v2-15dc50138f7aa4c4621a132ec2ad6d05_b.jpg

内部组件解释

复杂动作由多个单元简单动作组成,将简单的单元动作作为节点nodes

如何将产生的特征与节点Y相关联?

  • node attention block来进行关联:

v2-3ce1846832609ff08ba2c73a95dd19c3_b.png

v2-7ec3f1a650733fd1319e2aef70a1f7b1_b.jpg

是一组潜在特征,也是N个节点

v2-9f8981e0cf21232d990c3376068b080f_b.jpg

操作:增加可学习性

v2-a0499b2cc27d5e373ee43f0316088b29_b.jpg

操作:使用$\softmax()$增加非线性,用来计算每个视频段特征与单元动作之间的关联度。

    • 权重计算意义的解释:

v2-c15e15c29f4a4d1ebb94de3263020f85_b.jpg
    • 一个小问题:Y是如何产生的?

Y是随机产生。centroids = np.random.rand(n, dim)

Learning The Graph Edges 学习图的边

Graph Embedding Layer


v2-8ecf8f1d6b0a19771618b267582a6581_b.jpg

使用图嵌入层来学习两个信息:

  • Timewise Conv1D:单元动作之间的时间上的迁移信息
  • Nodewise Conv1D: 节点之间的关联性

v2-1c61daefc200e92040adf1e9846a7aca_b.jpg

实验:

在charades数据集上的性能


v2-976003f56615c489a090b0d030a2e84d_b.jpg

VideoGraph节点的学习过程可视化

v2-016771c3ecc9cadaca4b15b0e1d9e5ba_b.jpg

分类实例可视化:

v2-82b8e2a8235e530564de33bd162701fd_b.jpg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鹏RPZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值