文生视频相关资源汇总
目前想要尝试的项目描述:
文生视频:
- 先使用CahtGPT,写分镜剧本
- 再使用SD,MJ等进文生图
- 最后利用SVD,pika,Runway等生成视频
资源
开源数据集(可在魔搭社区中找)
- VideoInstruct-100k:
使用人工辅助和半自动注释技术生成的高质量视频对话数据集 - panda-70m:
一个包含70M高质量视频字幕对的大规模数据集 - Youku-mPLUG:
预训练集挖掘自优酷站内海量优质短视频内容 - MSR-VTT:
一个开放域视频字幕的大规模数据集 - Short2Story:
视频文本基准和用于多镜头理解的可扩展代码。包含20k视频的详细长摘要和80k视频镜头字幕 - internVid:
一个以视频为中心的大规模多模态数据集,可以学习强大且可转移的视频文本表示,以实现多模态理解和生成。 - webvid-10M:
大型文本视频数据集,包含从素材网站取约1000万个视频文本对。
数据处理
- Data-Juicar 扩展了对多模态数据的支持,已经实现上百个专用视频、图像、音频、文本等多模态数据处理算子及其工具,帮助用户分析、清洗及生成大规模高质量数据。
目前学习的感想
本次学习及其硬核,从sora的技术报告研读,到大咖交流,然后对sora可能实现路径的猜想交流,和开源资料分享。整体脉络非常清晰,本人只是AI技术的爱好者,主职算法不涉及AIGC的内容,可以说是纯小白,但这段时间的学习,让我基本摸清了文生视频的发展路径,了解到了sora为什么能横空出世,只是在这条路径中自己有太多不了解的地方,需要花时间去昂实相关基础。任重道远啊!后续会一点一点补齐相关知识,用一些项目练习,相关文档和代码都会秉承Datawhale的开源理念,分享在CSDN和Github上。
参考
- datawhale 202402期学习
- 二次元的datawhale
- 魔搭社区