玩不到 Sora,先提前了解一下文生视频的提示词?

关注公众号,发现CV技术之美

在数字媒体和⼈⼯智能技术飞速发展的今天,视频内容的创作和表达⽅式正经历着翻天覆地的变化。Sora的出现不仅代表了⽂本到视频转换技术的重⼤进步,更开启了视频创作的全新时代。想象⼀下,只需通过简单的⽂字描述,就能⽣成⽣动、⾼质量的视频,这将为故事讲 述、沉浸式体验和内容创作带来⾰命性的变⾰。

然⽽,这项激动⼈⼼的技术发展背后,有⼀个关键要素不容忽视——那就是“提⽰词”。提⽰词是指导视频⽣成的⽂字指令,它们对于创作出符合⽤户期望的视频⾄关重要。尽管如此,⽬前我们却⾯临⼀个问题:缺乏⼀个公开的、针对这些提⽰词进⾏研究的⼤规模数据集。为了填补这⼀空⽩,我们构建了⾸个⼤规模⽂本到视频提⽰数据集VidProM。

3d83a166331dd7801d546dad056895d2.png

VidProM 数据集汇集了来⾃真实⽤户的167万个独特的提⽰词,以及由四种最先进的扩散模型⽣成的669万个视频。这些资源为视频创作者和研究⼈员提供了灵感和机会,使他们能够深⼊探索和优化视频⽣成的过程。

e8ee0dc926b79307a439992d8b53a0d1.png

通过对VidProM的分析,我们不仅发现了⽤户在视频创作中的偏好,⽽且还揭⽰了与现有图像⽣成提⽰词数据集DiffusionDB之间的显著差异。这些发现突出了收集专门针对⽂本到视频转换的新提⽰数据集的必要性,并为未来的技术发展提供了洞察。

59a7cd7892c3aa17841c9b86c8167137.png

VidProM的推出为⽂⽣视频领域带来了新的研究⽅向和可能性。研究⼈员现在可以利⽤这个数据集来评估和改进⽂⽣视频模型,探索更⾼效的视频⽣成⽅法,以及开发专门的模型来保障视频内容的安全性和真实性。此外,这些⽂本-视频对还可以⽤于多模态学习任务,如视 频⽂本检索和视频描述,帮助缓解在线视频使⽤中的版权问题,降低收集⾼质量视频⽂本数据的难度。

通过公开分享这个资源,我们希望激发更多的创意和创新,共同推动视频⽣成技术的发展和应⽤。

  • 论文标题:VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

  • 项⽬论⽂:https://arxiv.org/abs/2403.06098

  • 项⽬地址:https://github.com/WangWenhao0716/VidProM

  • 数据集公开下载地址:https://huggingface.co/datasets/WenhaoWang/VidProM

cdd9650d3f2d9965882c708a872a3175.jpeg

END

欢迎加入「文生视频交流群👇备注:生成

6182c5522cede965d8b26b1a2c4893af.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值