文生图模型 - Nvidia eDiff-I技术

人工智能(AI)文转图生成器领域是当下科技公司的新战场。现在很多人工智能公司都想要开发一个生成模型,并能够通过相对简单的文本提示生成精致逼真的图像。在OpenAI的DALL-E 2[1]、谷歌的Imagen[2]和Meta的Make-a-Scene以其图像合成能力而闻名于天下之后,Nvidia以其名为eDiff-I[3]的文转图模型加入了这场竞赛。

与其他通过迭代去噪进行图像合成的生成式文转图模型不同,Nvidia的eDiff-I使用一个专门对生成过程的不同区间进行去噪的强大去噪器集合。

01. Nvidia独特的图像合成算法
eDiff-I的开发者将该模型描述为 “新一代生成性人工智能内容创作工具,能够提供前所未有的文转图功能”。

在最近发表的一篇论文中[4],作者说,目前的图像合成算法在很大程度上依赖文本提示来创建与文本完全对标的信息,而文本调节几乎完全被忽略,将图像合成任务转移成产生高度逼真的图片。这导致人们意识到比起在整个生成过程中共享模型参数,可能有更好的方法来表示生成过程的这些模型。

“因此,与当前主流的做法相比,我们更建议训练一个专门用于不同合成阶段的文转图扩散模型集合。”Nvidia研究团队在他们的论文中如此说。“为了保持模型训练的效率,我们最开始训练一个单一的模型,然后将其逐步拆分成专门的模型,为迭代生成过程的特定阶段进行更进一步的训练。”

eDiff-I的图像合成管道是由三个扩散模型组成——一个低分辨率扩散模型,可以合成64

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值