文生图模型 - Nvidia eDiff-I技术

m0_70960708

于 2024-08-06 10:36:23 发布

阅读量44

点赞数

分类专栏：笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70960708/article/details/140948885

版权

笔记专栏收录该内容

201 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

人工智能（AI）文转图生成器领域是当下科技公司的新战场。现在很多人工智能公司都想要开发一个生成模型，并能够通过相对简单的文本提示生成精致逼真的图像。在OpenAI的DALL-E 2[1]、谷歌的Imagen[2]和Meta的Make-a-Scene以其图像合成能力而闻名于天下之后，Nvidia以其名为eDiff-I[3]的文转图模型加入了这场竞赛。

与其他通过迭代去噪进行图像合成的生成式文转图模型不同，Nvidia的eDiff-I使用一个专门对生成过程的不同区间进行去噪的强大去噪器集合。

01. Nvidia独特的图像合成算法
eDiff-I的开发者将该模型描述为 “新一代生成性人工智能内容创作工具，能够提供前所未有的文转图功能”。

在最近发表的一篇论文中[4]，作者说，目前的图像合成算法在很大程度上依赖文本提示来创建与文本完全对标的信息，而文本调节几乎完全被忽略，将图像合成任务转移成产生高度逼真的图片。这导致人们意识到比起在整个生成过程中共享模型参数，可能有更好的方法来表示生成过程的这些模型。

“因此，与当前主流的做法相比，我们更建议训练一个专门用于不同合成阶段的文转图扩散模型集合。”Nvidia研究团队在他们的论文中如此说。“为了保持模型训练的效率，我们最开始训练一个单一的模型，然后将其逐步拆分成专门的模型，为迭代生成过程的特定阶段进行更进一步的训练。”

eDiff-I的图像合成管道是由三个扩散模型组成——一个低分辨率扩散模型，可以合成64

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。