开源视频字幕模型Video ReCap，可处理2小时！

最新推荐文章于 2024-06-25 09:31:22 发布

richerg85

最新推荐文章于 2024-06-25 09:31:22 发布

阅读量715

点赞数 8

文章标签：音视频 Video ReCap

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/richerg85/article/details/136346542

版权

随着抖音、快手等平台的火爆出圈，越来越多的用户开始制作大量的短视频内容。但对这些视频进行有效的理解和分析仍面临一些困难。尤其是视频时长超过几分钟、甚至几小时，传统的视频字幕生成技术往往无法满足需求。

因此，北卡罗来纳大学和Meta AI的研究人员开源了，视频字幕模型Video ReCap。这是一种递归视频字幕生成模型，能够处理从1秒到2小时的视频，并在多个层级上输出视频字幕。

此外，研究人员通过在Ego4D上增加8,267个手动收集的长视频摘要，引入了一个层次化视频字幕数据集Ego4D-HCap，并使用该数据集对Video ReCap进行了综合评估。

结果显示，Video ReCap在短视频片段字幕、中等长度段描述和长视频摘要的测试指标均明显超过多个强大基准模型。通过该模型生成的分层视频字幕，也能显著提升基于EgoSchema数据集的长视频问答效果。

开源地址：https://github.com/md-mohaiminul/VideoRecap?tab=readme-ov-file

论文地址：https://arxiv.org/abs/2402.13250

Video ReCap模型介绍

Video ReCap的核心技术是使用了递归视频语言架构，主要通过递归处理机制，使模型能够在不同的时间长度和抽象层级上理解视频，从而生成精确且层次丰富的视频描述字幕。主要由3大模块组成。

1）视频编码器

最低0.47元/天解锁文章

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
开源视频字幕模型Video ReCap，可处理2小时！

Video ReCap的核心技术是使用了递归视频语言架构，主要通过递归处理机制，使模型能够在不同的时间长度和抽象层级上理解视频，从而生成精确且层次丰富的视频描述字幕。此外，研究人员通过在Ego4D上增加8,267个手动收集的长视频摘要，引入了一个层次化视频字幕数据集Ego4D-HCap，并使用该数据集对Video ReCap进行了综合评估。Ego4D-HCap主要包含三个层次的字幕:短剪辑字幕、几分钟长的段描述和长段视频摘要,用于验证分层视频字幕任务的有效性。对于短视频片段,编码器则输出密集的时空特征。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。