【论文复现】Temporal Pyramid Network for Action Recognition

最新推荐文章于 2022-04-14 19:41:21 发布

jink_love

最新推荐文章于 2022-04-14 19:41:21 发布

阅读量1.1k

点赞数

分类专栏：计算机视觉论文复现文章标签：计算机视觉人工智能机器学习视频分类论文复现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/superloveboy/article/details/107829539

版权

本文介绍了香港中文大学和商汤科技在CVPR 2020发表的TPN网络，用于解决视频分类问题。TPN借鉴了slowFast网络的思想，构建时间金字塔以捕获不同时间尺度的特征，同时在空间尺度上进行对齐和增强监督信息。论文提出了时间尺度和空间尺度两部分的解决方案，通过实验展示了其在视频理解上的优势。作者分享了论文阅读和代码复现的过程，感谢相关团队的支持和激励。

摘要由CSDN通过智能技术生成

论文地址： https://arxiv.org/abs/2004.03548

导读：这篇文章是香港中文大学和商汤发表在CVPR 2020 的文章
作者提出TPN网络，用于视频分类问题的解决，思想和slowfast的思想相似

在这里插入图片描述

在相同速率下很难识别出来走、慢走和跑的动作，不同的视频帧速率对检测结果影响很大，现有的视频模型设计忽略了视觉速度这一至关重要的点
在此之前facebook的kaiming提出slowFast （代码地址）网络结构的想法很相似，快慢结合的网络，上面一个分支是slow网络，输入低帧率，用于捕获空间语义信息；下面一路是fast网络，用于捕获运动信息，具体如下图：
在这里插入图片描述
上面两个图，下面六个图，呈现出来了金字塔形状，不同尺度的下采样送入网络，问题在于需要重复提取不同时间尺度上的特征，计算花费很大

所以提出来了解决方法：

第一部分

时间尺度

在不同分辨率的特征图中，以不同的帧速率提取不同组合的特征图，并形成新的特征图
以单个分辨率特征图为例，将特征图 F(C ×T ×W ×H) 根据 {r1, …, rM; r1 < r2 < … < rM} 划分组合得到新的特征图
$F\left\{ C × \frac{X}{r^1} × W × H, \cdots ,C × \frac{T}{rM} × W × H \right\}$

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
【论文复现】Temporal Pyramid Network for Action Recognition

前言：感谢百度大脑，paddlepaddle组织顶会论文复现活动，让我加班加点写代码，熬夜读paper ! 痛苦并快乐着！感谢AI技术生态部的团队的老师的讲解和运营团队的努力准备，尤其是班班-芮芮班主任，直播后加班加点赶视频，整理内容，解答问题，天天工作到凌晨2、3点钟，激发我继续努力学习的动力！论文地址： https://arxiv.org/abs/2004.03548导读：这篇文章是香港中文大学和商汤发表在CVPR 2020 的文章作者提出TPN网络，用于视频分类问题的解决，思想和slowf
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。