Representation Flow for Action Recognition论文解读

Representation Flow for Action Recognition论文解读
1 简介

这是2019 CVPR视频动作识别领域的最新论文,出自印第安纳大学的AJ Piergiovanni 和 Michael S. Ryoo之手。

文章受光流算法启发提出可以学习运动表征的表示流卷积层,该表示流层对于光流迭代的优化的所有参数都可以通过和其他卷积网络一起进行end-to-end的学习得到,并且实现了动作识别性能的提升。

文章也通过叠加多重表示流层,提出了FOF(flow of flow)、FCF(flow-conv-flow)的概念。

实验表明,本文提出的表示流实现了计算速度和性能的最优。

2 详情

2.1 背景

之前双流法(Two Stream)中光流的计算量太大,每帧通常需要成百上千次优化迭代;同时学习两个分开的CNN流,使得计算量巨大且要学的参数量也巨大,限制了实时性;

2.2 光流介绍

光流是Gibson在1950年首先提出来的。

它是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。

简单来说,光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流的研究是利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”。研究光流场的目的就是为了从图片序列中近似得到不能直接得到的运动场
在这里插入图片描述
在运动微小的前提下,利用泰勒公式展开:
在这里插入图片描述
当Δt足够小,趋近于0时有:
在这里插入图片描述
这便是光流约束方程。

2.3 TV-L1求光流

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
其中theta、tao、lamda等参数都是人工手动设置的。初始化u=0,通过成百上千次迭代,最终求出u,进而获得运动信息。

2.4 Representation flow方法

算法和TV-L1算法基本一致,但是参数可由网络学习得到。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

其中梯度通过Sobel 算子求出,直接用特征图和Sobel滤波器相乘即可:

在这里插入图片描述

在这里插入图片描述
2.5 Representation flow方法和TV-L1对比

1)Representation flow只使用单一的尺度,而TV-L1使用多重尺度;

2)Representation flow不使用任何的warp;

3)Representation flow在更小空间尺寸的CNN tensor上计算光流;

3 实验过程

在这里插入图片描述
实验表明,在ResNet的Block3之后计算Representation flow效果最好。

在这里插入图片描述
实验表明,只学习Divergence、tao、lanmda、theta时效果最好。

在这里插入图片描述
实验表明,传统的TV-L1方法效果随着迭代次数的增加,效果越来越好。但是Representation flow迭代次数100次效果反而不如50次,同时20次和50次差别不大,所以出于计算成本的考虑选用20次迭代。

4 实验结果
在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

在这里插入图片描述

与其它state-of-the-art方法相比,Representation flow实现了性能和计算速度的最优。

参考原论文:https://arxiv.org/abs/1810.01455

推荐阅读:

视频动作识别调研:https://blog.csdn.net/qq_41590635/article/details/101478277

视频动作检测最新发展调研:https://blog.csdn.net/qq_41590635/article/details/101553059

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
深度高分辨率表示学习是一种用于视觉识别的技术,旨在从图像中学习到更高质量和更具表达力的特征表示。在传统的视觉识别任务中,如图像分类、目标检测和语义分割,传统的特征表示方法通常提取低级或中级特征,这些特征可能无法有效地捕捉到图像的复杂信息。而深度高分辨率表示学习通过多层神经网络的结构和大规模训练数据来学习更深层次、更富有语义的图像特征。 深度高分辨率表示学习方法通常包含以下几个关键步骤:首先,通过使用深度卷积神经网络(DCNN)架构来学习特征表示。DCNN是一种层次结构复杂、能够从原始像素数据中自动学习特征的神经网络。其次,利用大规模的标注数据进行训练,通过反向传播算法来更新网络的权重和偏置参数,从而最小化预测误差。最后,在训练过程中采用一些优化策略,如数据增强、正则化和优化器选择等,以提高网络的泛化能力和识别性能。 深度高分辨率表示学习在计算机视觉领域有着广泛的应用。一方面,它可以用于图像分类,通过学习到的高质量特征表示,可以在分类任务中获得更高的准确性和鲁棒性。另一方面,它也可以用于目标检测和语义分割任务,通过学习到的特征表示,可以更准确地定位和分割图像中的对象。此外,深度高分辨率表示学习还可以用于识别特定的物体、场景或人脸,从而应用于人脸识别、目标跟踪和智能安防等领域。 总之,深度高分辨率表示学习是一种能够有效提高视觉识别任务准确性和鲁棒性的技术。它通过学习到更深层次、更富有语义的图像特征表示,提供了更强大的图像分析和理解能力,为计算机视觉领域的各种应用提供了重要的支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值