imagen: 具有深度语言理解的逼真的文本到图像扩散模型

sp_fyf_2024

已于 2024-09-16 15:01:50 修改

阅读量1.2k

点赞数 9

分类专栏：深度学习人工智能前沿技术文章标签：深度学习人工智能 imagen

于 2024-09-15 23:28:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fyf2007/article/details/142290206

版权

1. 项目主页

Imagen: Text-to-Image Diffusion Models

我们推出了 Imagen，这是一种文本到图像的扩散模型，具有前所未有的照片级真实感和深层次的语言理解能力。Imagen 建立在大型 Transformer 语言模型在文本理解方面的强大功能之上，并依赖于扩散模型在高保真图像生成方面的强大功能。我们的主要发现是，在纯文本语料库上进行预训练的通用大型语言模型（例如 T5）在对文本进行图像合成编码方面出奇地有效：增加 Imagen 中语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。Imagen 在 COCO 数据集上获得了 7.27 的全新最佳 FID 分数，而无需在 COCO 上进行训练，并且人类评分者发现 Imagen 样本在图像文本对齐方面与 CO

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

sp_fyf_2024 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。