文生视频相关资源汇总

最新推荐文章于 2024-04-23 18:43:37 发布

朔漠君

最新推荐文章于 2024-04-23 18:43:37 发布

阅读量411

点赞数 5

分类专栏： -----文生xx相关学习----- 文章标签：音视频 sora 文生视频

本文链接：https://blog.csdn.net/qq_42947060/article/details/136651877

版权

-----文生xx相关学习----- 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文生视频相关资源汇总

目前想要尝试的项目描述：
资源
- 开源数据集(可在魔搭社区中找)
- 数据处理
目前学习的感想
参考

目前想要尝试的项目描述：

文生视频：

先使用CahtGPT，写分镜剧本
再使用SD，MJ等进文生图
最后利用SVD，pika，Runway等生成视频

资源

开源数据集(可在魔搭社区中找)

VideoInstruct-100k：
使用人工辅助和半自动注释技术生成的高质量视频对话数据集
panda-70m：
一个包含70M高质量视频字幕对的大规模数据集
Youku-mPLUG：
预训练集挖掘自优酷站内海量优质短视频内容
MSR-VTT：
一个开放域视频字幕的大规模数据集
Short2Story：
视频文本基准和用于多镜头理解的可扩展代码。包含20k视频的详细长摘要和80k视频镜头字幕
internVid：
一个以视频为中心的大规模多模态数据集，可以学习强大且可转移的视频文本表示，以实现多模态理解和生成。
webvid-10M：
大型文本视频数据集，包含从素材网站取约1000万个视频文本对。

数据处理

Data-Juicar 扩展了对多模态数据的支持，已经实现上百个专用视频、图像、音频、文本等多模态数据处理算子及其工具，帮助用户分析、清洗及生成大规模高质量数据。

目前学习的感想

本次学习及其硬核，从sora的技术报告研读，到大咖交流，然后对sora可能实现路径的猜想交流，和开源资料分享。整体脉络非常清晰，本人只是AI技术的爱好者，主职算法不涉及AIGC的内容，可以说是纯小白，但这段时间的学习，让我基本摸清了文生视频的发展路径，了解到了sora为什么能横空出世，只是在这条路径中自己有太多不了解的地方，需要花时间去昂实相关基础。任重道远啊！后续会一点一点补齐相关知识，用一些项目练习，相关文档和代码都会秉承Datawhale的开源理念，分享在CSDN和Github上。

参考

datawhale 202402期学习
二次元的datawhale
魔搭社区

朔漠君

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
文生视频相关资源汇总

本次学习及其硬核，从sora的技术报告研读，到大咖交流，然后对sora可能实现路径的猜想交流，和开源资料分享。整体脉络非常清晰，本人只是AI技术的爱好者，主职算法不涉及AIGC的内容，可以说是纯小白，但这段时间的学习，让我基本摸清了文生视频的发展路径，了解到了sora为什么能横空出世，只是在这条路径中自己有太多不了解的地方，需要花时间去昂实相关基础。后续会一点一点补齐相关知识，用一些项目练习，相关文档和代码都会秉承Datawhale的开源理念，分享在CSDN和Github上。
复制链接

扫一扫