GPT-4联手开源建模软件Blender,打破文本到视频生成的物理界限

该研究利用GPT-4生成Blender可执行的python脚本,通过Blender的物理仿真确保生成视频的物理连贯性。结合SDXL扩散模型,产生更符合物理规律的文本到视频内容。尽管多步骤方案可能受限于上游效果,但此方法为无训练文本到视频生成提供了一条新途径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

059d6974c3e2c37a8692b62b9cddb4a7.gif

328620e3767c1a58f7b5855f116999e6.png

引言

1d0288014511d1f84962b5981e876c36.png

如上图,Text2Video 模型生成的结果可能是这样的,看起来还不错,基本上都满足了 prompt 的要求,但仔细看下,好像还是有点不对劲,上图中的旗子和下图中的水流不符合物理规律啊!

继 Text2Image 火了之后,研究者们将目光投向了更加复杂的 Text2Video 领域,基于扩散模型的方法也逐渐成为了主流。一种典型思路是基于大规模的 Text-Video 数据集进行训练学习,但这种思路比较费钱,适合有钱的大厂来玩;另外一种思路是所谓的 Trainging Free,基于现有的开源模型来尝试生成一些简单的视频,代表工作有:Text2Video-Zero [1] 和 Free-bloom [2]。

但是,这类 Training Free 的方法所生成的视频存在一个严重的问题是无法保证其物理连贯性。既然让现有扩散模型在不训练的条件下来学会物理约束难以实现,那么可否找一个懂物理知识的“老师”来指导扩散模型?

ad9376b331a5d763746657398293b795.png

GPT+Blender+SDXL

本篇论文正是采用此种思路提出了一种有趣的解决方案,而这里的“老师”是懂物理的 3D 建模软件 Blender。

7a08a072af83d89d15660388ee9645ec.png

论文题目:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值