干货！视频中的时序定位——面向实时、灵活、精确的解决方案

AITIME论道

于 2022-09-04 12:00:27 发布

阅读量1.8k

点赞数

文章标签：人工智能大数据编程语言 python 机器学习

本文链接：https://blog.csdn.net/AITIME_HY/article/details/126697192

版权

本文探讨了视频时序定位的重要性，特别是在海量视频数据背景下。研究指出，传统两步训练方法存在任务不一致问题，为此提出了低保真（LoFi）优化方法，允许视频理解模型与定位模型协同训练，以提高性能并适应硬件限制。实验结果显示，这种方法在多个数据集上取得最优效果，并能应用于不同规模的模型和硬件环境。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

得利于数码相机的便利和社交网络的发展，每秒钟都有大量视频都在生成和传播。因此，视频分析和理解成为计算机视觉界最重要的研究课题之一。最近，视频分析的重点逐渐的从片段视频的动作分类转向未修剪视频的时序定位。这是因为在许多现实世界的应用中，通常会呈现长的、未修剪的视频，而不是短的视频剪辑。未修剪的原始视频通常具有单调的背景场景和包含特定动作的前景片段，因此我们需要一个视频模型来执行时间定位任务从原始视频中定位前景运动。比如说，根据不同的场景，我们期望自动定位特定的动作，或者预测与给定句子匹配的一小段剪辑。总体来说，我们需要一个面向实时、灵活、精确的解决方案。

本期AI TIME PhD直播间，我们邀请到阿卜杜拉国王科技大学——许蒙蒙，为我们带来报告分享《视频中的时序定位——面向实时、灵活、精确的解决方案》。

许蒙蒙：

阿卜杜拉国王科技大学（KAUST）图像和视频理解实验室（IVUL）博士生，其导师为Bernard Ghanem教授。许蒙蒙于2017年获得中国浙江大学学士学位，并于2019年在KAUST获得硕士学位。博士期间，他曾在三星、亚马逊等公司实习。目前，许蒙蒙专注于图像和视频的理解。他感兴趣的问题是通过具有新颖模型架构的自监督学习来表示未修剪的长视频。他还对视频时序定位任务感兴趣，例如时序动作定位和视频语言定位。

今天我们主要介绍的问题是视频中的时序定位问题，希望可以得到面向实时、灵活、精确的解决方案。

Temporal Action Localization