文本到图像模型，如何快速生成高质量图片？ #Google Muse AI

原创于 2023-01-12 22:22:08 发布

· 1.3k 阅读

·

0

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

谷歌新推出的MuseAI是一个高效的AI图像生成系统，它在文本到图像转换方面表现出色，且比扩散或自回归模型更高效。MuseAI支持并行解码、精细的语言理解和多种编辑功能，如零镜头、无遮罩编辑，以及对多个对象的操作。与竞争对手相比，MuseAI在图像生成速度上有显著优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AIGC 的存在，大大提高了创作者的生产效率，目前，市面上也出现了许多快速生成图像的 AI 图像模型。

近日，谷歌的 Muse AI 系统亮相，使用 AI 生成图片又多了一个选择工具！

Google Muse AI

图源：Muse 官网

Google Muse AI是早期文本到图像转换器模型（如 Imagen 和 DALL-E 2 ）的改进版本，可实现最先进的图像生成性能，同时比扩散或自回归模型效率高得多。

Muse声称优于 Imagen 和 DALL-E 2 等像素空间扩散模型，因为它使用了离散令牌和较小的样本量要求。该模型根据文本提示迭代重采样图片标记，生成免费的零镜头、无遮罩编辑。

Google Muse AI的优势

- Muse 采用并行解码，这是Parti和其他自回归模型中所缺少的。

- 使用已经训练过的LLM，可以在粒度级别上掌握语言，这反过来又转化为产生高质量的图像并识别视觉概念，如物体，它们的空间关系，立场，基数等。

- Muse 允许进行修复、外画和无遮罩编辑，而无需翻转或翻转模型。

Google Muse AI 可提供哪些功能？

- 文本到图像生成

Google Muse AI 根据文本输入快速生成高质量图像（TPUv4 上 512×512 分辨率为 1.3 秒，256×256 分辨率为 0.5 秒）。

图源：Muse 官网

- 零镜头、无遮罩编辑

由于基于文本提示对图片标记进行迭代重采样，Google Muse AI 模型提供了免费的零镜头、无遮罩编辑。

图源：Muse 官网

- 可操作多个对象

更改图像时，无遮罩编辑允许使用简单的文本提示操作多个对象。

图源：Muse 官网

- 零镜头内涂/外涂

基于蒙版的编辑（内画/外画）免费包含在谷歌缪斯人工智能中。使用蒙版时，编辑与生成相同。

图源：Muse 官网

目前市面上有许多 AI 图像生成软件，主流AI图像生成系统包括 Stable Diffusion、OpenAI 的 DALL-E 2 等等，生成一副 512X512 级别的画像，Stable Diffusion1.4 需要 3.7 秒， Muse 仅需 1.3 秒。

因此，在图片生成的速度上，与竞品相比，Muse 有着更大的速度优势。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。