video analysis

最新推荐文章于 2024-06-15 09:49:10 发布

sakus

最新推荐文章于 2024-06-15 09:49:10 发布

阅读量1.8k

点赞数

分类专栏： NII 文章标签： video

本文链接：https://blog.csdn.net/sakus/article/details/83096423

版权

本文介绍了视频分析领域的多个数据集，如MSR-VTT、YouTube2Text和MPII-MD，以及相关的视频生成、目标跟踪、视频字幕等技术。重点提及CVPR、ECCV和ICCV等会议的最新研究论文，探讨了视频理解和问答的挑战与解决方案。

摘要由CSDN通过智能技术生成

MSR-VTT dataset: 该数据集为ACM Multimedia 2016 的 Microsoft Research - Video to Text (MSR-VTT) Challenge。地址为 MSR-VTT 。该数据集包含10000个视频片段（video clip），被分为训练，验证和测试集三部分。每个视频片段都被标注了大概20条英文句子，共200000条句子。此外，MSR-VTT还提供了每个视频的类别信息（共计20类），这个类别信息算是先验的，在测试集中也是已知的。同时，视频都是包含音频信息的。该数据库共计使用了四种机器翻译的评价指标，分别为：METEOR, BLEU@1-4,ROUGE-L,CIDEr。
train-video: download link
test-video: download link
baidu pwd:nxyk
YouTube2Text dataset(or called MSVD dataset):该数据集同样由Microsoft Research提供，地址为 MSVD 。该数据集包含1970段YouTube视频片段（时长在10-25s之间），每段视频被标注了大概40条英文句子。
MPII-MD dataset: 全称

关注