TPAMI 2024 | 用于动作检测的语义与运动感知时空变换网络

小白学视觉

于 2024-10-07 21:15:30 发布

阅读量131

点赞数

分类专栏：论文解读 IEEE TPAMI 文章标签：网络深度学习顶刊论文论文解读 TPAMI IEEE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42722197/article/details/142045378

版权

论文解读 IEEE TPAMI 专栏收录该内容

621 篇文章 ¥79.90 ¥99.00

订阅专栏

A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection

题目：用于动作检测的语义与运动感知时空变换网络

作者：Matthew Korban; Peter Youngs; Scott T. Acton
源码：

摘要

本文提出了一种新颖的时空变换器网络，通过引入几个原创组件来检测未修剪视频中的动作。首先，多特征选择性语义注意力模型计算空间和运动特征之间的相关性，以适当地模拟不同动作语义之间的时空交互。其次，运动感知网络利用运动感知2D位置编码算法编码视频帧中动作语义的位置。这种运动感知机制记忆了当前方法无法利用的动作帧中的动态时空变化。第三，基于序列的时序注意力模型捕获动作帧中的异构时序依赖性。与传统的自然语言处理中主要旨在寻找语言词汇之间相似性的时序注意力不同，所提出的基于序列的时序注意力旨在确定视频帧之间的差异和相似性，这些差异和相似性共同定义了动作的含义。所提出的方法在四个时空动作数据集上超越了最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24和EPIC-Kitchen

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小白学视觉 您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。