TPAMI 2024 | 用于动作检测的语义与运动感知时空变换网络

A Semantic and Motion-Aware Spatiotemporal Transformer Network for Action Detection

题目:用于动作检测的语义与运动感知时空变换网络

作者:Matthew Korban; Peter Youngs; Scott T. Acton
源码:


摘要

本文提出了一种新颖的时空变换器网络,通过引入几个原创组件来检测未修剪视频中的动作。首先,多特征选择性语义注意力模型计算空间和运动特征之间的相关性,以适当地模拟不同动作语义之间的时空交互。其次,运动感知网络利用运动感知2D位置编码算法编码视频帧中动作语义的位置。这种运动感知机制记忆了当前方法无法利用的动作帧中的动态时空变化。第三,基于序列的时序注意力模型捕获动作帧中的异构时序依赖性。与传统的自然语言处理中主要旨在寻找语言词汇之间相似性的时序注意力不同,所提出的基于序列的时序注意力旨在确定视频帧之间的差异和相似性,这些差异和相似性共同定义了动作的含义。所提出的方法在四个时空动作数据集上超越了最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24和EPIC-Kitchen

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白学视觉

您的赞赏是我们坚持下去的动力~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值