谷歌Gemini 2.0 Flash放出原生多模态图像生成功能：支持多轮对话式实时编辑，附最新尝鲜方式

最新推荐文章于 2025-03-17 20:28:57 发布

Ztop

最新推荐文章于 2025-03-17 20:28:57 发布

阅读量989

点赞数 10

分类专栏： gemini 文章标签：人工智能

本文链接：https://blog.csdn.net/ONE_ZJC/article/details/146242866

版权

gemini 专栏收录该内容

5 篇文章

订阅专栏

继Gemma3之后，谷歌推出了Gemini 2.0 Flash，它拥有原生图像生成能力。

以前的AI图像生成，是大型语言模型先理解文字，再将意思传递给扩散模型，这中间容易“失真”。而Gemini2.0Flash将图像生成功能集成在模型内部，提高了效率和准确度。

AI界的神笔马良？功能亮点抢先看

那么，Gemini 2.0 Flash有哪些亮点呢？

文字图像“讲故事”

Gemini2.0Flash能根据文字描述生成连贯的故事情节，保证人物和场景风格一致。如果对画面不满意，还可以像聊天一样提出修改意见，AI会根据反馈进行调整，这为故事创作者和游戏开发者带来了福音。

“你说我改”，实时图像编辑

Gemini2.0Flash支持多轮对话式编辑，用户可以用自然语言告诉它如何修改图像，比如“把云彩变成粉红色”或“给小猫加个帽子”，它能立刻实现，这种实时协作和创意探索的方式让人惊叹。

“腹有诗书”，图像更懂你

Gemini 2.0 Flash拥有更广阔的知识储备和推理能力，生成的图像更加贴合实际。比如，它能准确画出“正在煎鸡蛋的场景”，而不是不符合常识的图像。

“字字珠玑”，文本渲染更清晰

Gemini 2.0 Flash在文本渲染方面表现出色，能避免生成图片中文字乱码的情况，这对于需要制作广告、社交媒体帖子或邀请函的用户来说非常有帮助。

值得注意的是，谷歌在去年12月发布的Gemini 2.0 Flash，现在迅速推出了原生图像生成功能。

当然，Gemini 2.0 Flash的潜力不仅限于满足个人用户的创意需求，对于企业和开发者来说，它同样具有巨大价值：

营销设计“加速器”：营销团队可以快速生成品牌内容、广告素材和社交媒体视觉内容，降低设计成本，提高工作效率。
开发工具“新助手”：开发者可以将图像生成能力集成到各种应用和服务中，如自动生成UI/UX模型、实时生成文档插图、打造动态故事叙述平台等。
效率软件“助推器”：企业可以开发出自动生成演示文稿、智能标注商业文档、动态生成电商产品模型等实用工具，进一步提升办公效率。

如何“尝鲜”？

目前，开发者可以通过Gemini API体验Gemini 2.0 Flash的图像生成能力。谷歌还提供了API请求示例，教用户如何用简单代码生成带有文字和图像的故事。

from google import genai
from google.genai import types

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(
    model="gemini-2.0-flash-exp",
    contents=(
        "Generate a story about a cute baby turtle in a 3d digital art style. "
        "For each scene, generate an image."
    ),
    config=types.GenerateContentConfig(
        response_modalities=["Text", "Image"]
    ),
)