近日,Google 发布了 Gemini 2.0 Flash 的实验性图像生成功能(Gemini 2.0 Flash (Image Generation) Experimental
)。我也第一时间体验了这一功能,再次感受到 AI 技术对传统图像处理工具的颠覆性冲击。
引言
Gemini 2.0 Flash 的实验性图像生成功能于 2025 年 3 月推出,为用户提供了一种全新的创作范式。它不仅能生成图像,还支持交互式修改、文本与图像整合等功能。虽然作为 Preview 模型,它并非完美无瑕,但确实为内容创作者和开发者带来了便利。本文将诚恳而客观地探讨其主要功能、安装方法、应用场景,并通过实际测试展示其潜力,希望帮助大家更好地了解和使用这一工具。
主要功能及特点
-
多模态输出 Gemini 2.0 Flash 能够同时生成文本和图像,实现跨模态信息的理解和融合。这使得用户可以轻松创建图文并茂的内容,例如生成带有插图的故事,并确保内容在不同模态下的一致性。
-
交互式编辑 通过多轮对话,用户可以逐步调整图像细节,例如添加元素或改变风格,无需从头开始。这种交互式编辑方式极大地提升了创作效率和灵活性。
-
文本渲染能力 Gemini 在图像中渲染文字的效果较为清晰,适合制作含文字的设计,如广告牌或海报。
使用方法
-
Google AI Studio
-
访问 Google AI Studio。
-
登录后,在模型选择器中找到“gemini-2.0-flash-exp”(位于“preview”部分)。请注意,作为一个 Preview 模型,"gemini-2.0-flash-exp" 可能存在一些限制。
-
在“Run Settings”中将输出格式设为“Images + text”。
-
开始输入提示词即可测试。
-
注意:每日使用有限制。
-
-
Gemini API
-
准备:获取 Google API 密钥,安装 Python 和
google.genai
包(pip install google-genai
)。 -
示例代码:
from google import genai from google.genai import types client = genai.Client(api_key="YOUR_API_KEY") response = client.models.generate_content( model="gemini-2.0-flash-exp", contents=("Generate a cozy cabin in the woods with a warm fireplace, in a cartoon style."), config=types.GenerateContentConfig(response_modalities=["Text", "Image"]) )
-
- 注意:存在每日使用限制,单次对话限额 32768 tokens,可以通过新建对话来规避限制。
Google AI Studio设置
应用场景
Gemini 2.0 Flash 的图像生成功能在以下场景中表现出色:
-
制作连续的图文混排稿
可以制作连环画、漫画、厨房教程等连续性的图文混排稿。
-
图像编辑
通过对话快速调整已有图像,适合需要反复修改的设计工作,包括常见的智能抠图、风格迁移等。 Gemini 在图像理解和操作方面的能力,极大地简化了图像编辑流程。
-
文字图片
制作含文字的宣传图像,如海报或社交媒体帖子。目前英文表现较好,中文比较拉跨。
应用测试
1. 讲故事
提示词:
- 生成一个关于小兔子寻找失踪胡萝卜的故事,用明亮的卡通风格,包含三幕:兔子发现胡萝卜不见了、兔子在森林里寻找、兔子找到胡萝卜并庆祝。每幕生成一张图像。
2. 图像编辑
提示词: - 第一步:“生成一个海滩日落场景,有橙色天空、平静的海浪和棕榈树,风格是水彩画。” - 第二步:“在沙滩上加一个木制躺椅和一把彩色遮阳伞。” - 第三步:“把天空改成夜晚,增加星星和月亮。”
连续图像编辑
3. 文字图片
提示词: - 生成一张咖啡店广告牌,背景是浅棕色木纹,文字写‘Today's Special Offer: Latte $2’,旁边有一杯冒热气的拿铁,风格简约现代。
使用感受
这款产品是对市面上图片修改软件的有力补充。常见的抠图、工作证件照、换头像、换风格等操作,都可以通过对话直接修改。 有几个点需要注意:
-
在一个对话下尽量做一件修改事项,上下文会干扰图片内容。
-
目前为测试阶段,有 Token 限制。
-
文字图片对中文不太友好。
-
不是每一次效果都那么好,需要不断尝试。 Gemini 可以作为一个强大的工具,但并非万能。
结语
Gemini 2.0 Flash (Image Generation) Experimental 是一个充满潜力的工具,它的多模态输出和交互式编辑功能为图像创作带来了新的可能性。诚然,它并非无可挑剔——图像细节可能不够完美,使用限制也可能让人不便。但对于需要快速生成创意内容或简化工作流程的用户来说,它无疑是一个可靠的帮手。通过上述测试,你可以亲手验证它的能力,找到最适合自己的应用方式。我坚信,随着更多人参与测试和反馈,这款工具会不断进步,为我们带来更多惊喜,并对内容创作行业产生深远影响。让我们共同期待 AI 图像生成技术为人类创造力带来的更多可能性。
🔗 相关网站
- Gemini
-
Google AI Studio:https://aistudio.google.com/
-