VALSE 2024年度进展评述内容分享-视频生成

最新推荐文章于 2024-10-07 06:31:57 发布

audyxiao001

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量356

点赞数 8

文章标签：人工智能大数据深度学习语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/audyxiao001/article/details/138520639

版权

2024年视觉与学习青年学者研讨会（VALSE 2024）于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道，方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述，可能与报告人的原意有所不同，敬请读者理解；如报告人认为文章与自己报告的内容差别较大，可以联系公众号删除。

中国人民大学的卢志武教授对视频生成技术的年度进展进行了总结，并做了精彩报告，相关内容总结如下。

1.报告人简介

卢志武，中国人民大学高瓴人工智能学院教授，博士生导师，研究方向为机器学习与计算机视觉。

2.报告概览

视频生成技术在2023年取得了快速的发展，诸如Stable Video Diffusion、Runway Gen-2等模型陆续被提出，但是视频生成技术仍然面临内容一致性与资源消耗等挑战。该年度进展评述报告详细阐述了这些挑战，并详细介绍了视频生成领域的新模型和新技术，展望了视频生成领域的未来的发展方向。

3.内容整理

卢志武教授的报告主要分为三个部分，下面逐一加以详细介绍。

(1)视频生成面临的挑战

1）在生成长视频时，确保内容的连贯性是一大难题，特别是画面抖动问题在长视频中尤为明显。

2）视频生成模型在训练和推理阶段都需要大量的计算资源。高清晰度和长时间的视频尤其会加剧资源消耗。

3）相较于图像的可控生成，视频的可控生成难度更大。它需要考虑更多复杂的因素，如精细的镜头运用和复杂的角色动作。

(2)视频生成的两种范式

1）基于SD逐帧生成范式：包括Pika Labs、Runway Gen-2、I2VGEN-XL、DynamiCrafter、Stable Video Dissusion等，这种方法以SD作为初始化，模型训练更为简便且成本可控。然而，这种方法在视频内容一致性和长视频生成方面表现较差。

2）基于时空Patches生成范式：如Sora和Video Diffusion Transformer等，这种方法能够保证视频内容的一致性，支持长视频生成，但需要从头开始训练模型，因此训练成本较高。

(3)视频生成的发展趋势

1）视频生成加速：为了更好的实用性，需要不断优化视频生成的推理算法，减少单个视频的生成时间和计算资源消耗。

2）超长视频生成：当前领先的Sora模型最长能生成60秒视频。未来一年内，如何生成超过60秒的视频将是一个关注焦点。

3）视频可控生成：不同于图像的可控生成，视频可控生成需要额外考虑诸如精细运镜、复杂角色动作等要素，这增加了其挑战性。

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。