-
Towards Real-Time Action Recognitionon Mobile Devices Using Deep Models
动作识别是计算机视觉中的一项重要任务,并且开发了许多方法以将其推向极限。然而,当前的动作识别模型具有巨大的计算成本,其不能部署到移动设备上的实际任务中。在本文中,我们首先说明了实时动作识别的设置,这与当前的动作识别推理设置不同。在新的推理设置下,我们根据经验研究了Kinetics数据集中最先进的动作识别模型。我们的结果表明,设计有效的实时动作识别模型与设计高效的ImageNet模型不同,特别是在权重初始化方面。我们展示了ImageNet上的预训练权重提高了实时动作识别设置下的准确性。最后,我们使用手势识别任务作为案例研究来评估我们在移动电话上的实际应用中的紧凑型实时动作识别模型。结果表明,我们的动作识别模型比现有技术快6倍且具有类似的精确度,可以大致满足移动设备的实时要求。据我们所知,这是第一篇在移动设备上部署当前深度学习动作识别模型的论文。 -
Trimmed Action Recognition, Dense-Captioning Events in Videos, and Spatio-temporal Action Localization with Focus on ActivityNet Challenge 2019
This notebook paper presents an overview and comparative analysis of our systems designed for the following three tasks in ActivityNet Challenge 2019: trimmed action recognition, dense-captioning events in videos, and spatiotemporal action localization. -
Delving into 3D Action Anticipation from Streaming Videos
旨在通过部分观察来识别行动的行动预期由于广泛的应用而变得越来越流行。在本文中,我们通过流媒体视频调查3D动作预期的问题,目标是了解解决该问题的最佳实践。我们首先介绍了几种互补的评估指标,并提出了基于框架动作分类的基本模型。为了获得更好的性能,我们接着研究了两个重要因素,即训练剪辑的长度和剪辑采样方法。我们还通过从两个方面整合辅助信息来探索多任务学习策略:完整动作表示和类不可知动作标签。我们的综合实验揭示了3D动作预测的最佳实践,因此我们提出了一种具有多任务丢失的新方法。所提出的方法明显优于最近的方法,并在标准基准上展示了最先进的性能。 -
***Spatio-Temporal Fusion Networks for Action Recognition
基于视频的CNN工作集中于融合外观和运动网络的有效方式,但它们通常缺乏利用视频帧上的时间信息。在这项工作中,我们提出了一种新颖的时空融合网络(STFN),它整合了整个视频的外观和运动信息的时间动态。然后聚合捕获的时间动态信息以获得更好的视频级表示并通过端到端训练学习。时空融合网络由两组残余初始块组成,它们提取时间动态以及外观和运动特征的融合连接。 STFN的好处是:(a)它捕获互补数据的局部和全球时间动态,以学习视频范围的信息; (b)它适用于任何视频分类网络,以提高性能。我们探索了STFN的各种设计选择,并验证了消融研究如何改变网络性能。我们在两个具有挑战性的人类活动数据集UCF101和HMDB51上进行实验,并通过最佳网络实现最先进的结果。
动作识别相关论文(arXiv) 2019
最新推荐文章于 2023-09-17 11:18:18 发布
768

被折叠的 条评论
为什么被折叠?



