2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。
中国人民大学的卢志武教授对视频生成技术的年度进展进行了总结,并做了精彩报告,相关内容总结如下。
1.报告人简介
卢志武,中国人民大学高瓴人工智能学院教授,博士生导师,研究方向为机器学习与计算机视觉。
2.报告概览
视频生成技术在2023年取得了快速的发展,诸如Stable Video Diffusion、Runway Gen-2等模型陆续被提出,但是视频生成技术仍然面临内容一致性与资源消耗等挑战。该年度进展评述报告详细阐述了这些挑战,并详细介绍了视频生成领域的新模型和新技术,展望了视频生成领域的未来的发展方向。
3.内容整理
卢志武教授的报告主要分为三个部分,下面逐一加以详细介绍。
(1)视频生成面临的挑战
1)在生成长视频时,确保内容的连贯性是一大难题,特别是画面抖动问题在长视频中尤为明显。
2)视频生成模型在训练和推理阶段都需要大量的计算资源。高清晰度和长时间的视频尤其会加剧资源消耗。
3)相较于图像的可控生成,视频的可控生成难度更大。它需要考虑更多复杂的因素,如精细的镜头运用和复杂的角色动作。
(2)视频生成的两种范式
1)基于SD逐帧生成范式: 包括Pika Labs、Runway Gen-2、I2VGEN-XL、DynamiCrafter、Stable Video Dissusion等,这种方法以SD作为初始化,模型训练更为简便且成本可控。然而,这种方法在视频内容一致性和长视频生成方面表现较差。
2)基于时空Patches生成范式: 如Sora和Video Diffusion Transformer等,这种方法能够保证视频内容的一致性,支持长视频生成,但需要从头开始训练模型,因此训练成本较高。
(3)视频生成的发展趋势
1)视频生成加速: 为了更好的实用性,需要不断优化视频生成的推理算法,减少单个视频的生成时间和计算资源消耗。
2)超长视频生成:当前领先的Sora模型最长能生成60秒视频。未来一年内,如何生成超过60秒的视频将是一个关注焦点。
3)视频可控生成:不同于图像的可控生成,视频可控生成需要额外考虑诸如精细运镜、复杂角色动作等要素,这增加了其挑战性。