VALSE 2024年度进展评述内容分享-视频生成

2024年视觉与学习青年学者研讨会(VALSE 2024)于55日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

中国人民大学的卢志武教授对视频生成技术的年度进展进行了总结,并做了精彩报告,相关内容总结如下。

1.报告人简介

卢志武,中国人民大学高瓴人工智能学院教授,博士生导师,研究方向为机器学习与计算机视觉。

2.报告概览

视频生成技术在2023年取得了快速的发展,诸如Stable Video DiffusionRunway Gen-2等模型陆续被提出,但是视频生成技术仍然面临内容一致性与资源消耗等挑战。该年度进展评述报告详细阐述了这些挑战,并详细介绍了视频生成领域的新模型和新技术,展望了视频生成领域的未来的发展方向。

3.内容整理

卢志武教授的报告主要分为三个部分,下面逐一加以详细介绍。

(1)视频生成面临的挑战

1)在生成长视频时,确保内容的连贯性是一大难题,特别是画面抖动问题在长视频中尤为明显。

2)视频生成模型在训练和推理阶段都需要大量的计算资源。高清晰度和长时间的视频尤其会加剧资源消耗。

3)相较于图像的可控生成,视频的可控生成难度更大。它需要考虑更多复杂的因素,如精细的镜头运用和复杂的角色动作。

(2)视频生成的两种范式

1)基于SD逐帧生成范式: 包括Pika LabsRunway Gen-2I2VGEN-XLDynamiCrafterStable Video Dissusion等,这种方法以SD作为初始化,模型训练更为简便且成本可控。然而,这种方法在视频内容一致性和长视频生成方面表现较差。

2)基于时空Patches生成范式: SoraVideo Diffusion Transformer等,这种方法能够保证视频内容的一致性,支持长视频生成,但需要从头开始训练模型,因此训练成本较高。

(3)视频生成的发展趋势

1)视频生成加速: 为了更好的实用性,需要不断优化视频生成的推理算法,减少单个视频的生成时间和计算资源消耗。

2)超长视频生成:当前领先的Sora模型最长能生成60秒视频。未来一年内,如何生成超过60秒的视频将是一个关注焦点。

3)视频可控生成:不同于图像的可控生成,视频可控生成需要额外考虑诸如精细运镜、复杂角色动作等要素,这增加了其挑战性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值