玩转 Google AI Studio：从入门到实战，轻松驾驭 Gemini 模型

annus mirabilis

已于 2025-04-12 16:55:48 修改

阅读量2.4k

点赞数 9

分类专栏： AI实战文章标签：人工智能 Google AIStudio Gemini

于 2025-04-12 16:55:09 首次发布

本文链接：https://blog.csdn.net/igwork/article/details/147167538

版权

AI实战专栏收录该内容

76 篇文章

订阅专栏

1. 什么是 Google AI Studio？

Google AI Studio 是 Google 推出的一个免费、基于 Web 的开发工具，旨在让开发者能够快速、轻松地使用 Google 最先进的生成式 AI 模型——Gemini 系列模型——进行原型设计和实验。你可以把它想象成一个 AI 模型的前端“游乐场”和“实验室”。

定位与目标用户： 主要面向希望探索、测试和快速迭代 AI 应用想法的开发者、研究人员、学生以及 AI 爱好者。它尤其适合那些需要快速验证 prompt 效果、调整模型参数或构建简单 AI 原型的场景。
与 Vertex AI 的关系： Google AI Studio 是 Google Cloud Vertex AI 平台的一个入口点。AI Studio 专注于快速原型设计和实验，而 Vertex AI 则提供了更全面的 MLOps 功能，包括模型训练、部署、监控、扩展等，适用于生产环境。你可以将在 AI Studio 中验证好的 Prompt 和配置，通过生成的代码轻松迁移到 Vertex AI 或你自己的应用程序中。
核心优势：
- 免费使用： 提供慷慨的免费额度（有速率限制），让你无需支付费用即可开始使用强大的 Gemini Pro 模型。
- 简单易用： 直观的图形界面，无需复杂的环境配置，打开浏览器即可使用。
- 快速原型： 支持多种 Prompt 类型，可以快速测试不同想法，并通过调整参数直观看到效果。
- 代码集成： 一键生成多种语言的 API 调用代码，方便将原型集成到实际项目中。

2. 快速入门：开启你的第一个 AI Studio 项目

访问与登录：

访问 Google AI Studio 官网：https://aistudio.google.com/
使用你的 Google 账号登录。首次登录可能需要同意服务条款。

界面概览：

登录后，你会看到一个简洁的仪表板：

创建新提示 (Create new prompt)： 这是主要入口，可以选择不同类型的 Prompt 开始你的实验。
最近提示 (Recent prompts)： 显示你之前创建和保存的 Prompt，方便快速访问和继续工作。
获取 API 密钥 (Get API key)： 在这里生成用于通过代码调用 Gemini API 的密钥。
左侧菜单： 提供导航到“我的库”（保存的提示）、API 密钥管理和文档链接等。

3. 核心功能详解：玩转不同类型的 Prompt

AI Studio 提供了三种主要的 Prompt 类型，以适应不同的交互需求：

a. 自由格式提示 (Freeform Prompt)

这是最简单直接的方式。你只需要在一个文本框中输入你的指令（Prompt），模型就会根据指令生成回应。

适用场景： 文本生成、摘要、翻译、回答问题、代码生成、创意写作等开放式任务。
使用方法：
1. 点击 "Create new" -> "Freeform prompt"。
2. 在中间的输入框中写入你的指令。例如：“写一首关于春天的五言绝句” 或 “解释一下什么是大语言模型”。
3. 点击 "Run" 按钮。
4. 在右侧查看模型生成的输出。
5. 可以在右侧面板调整模型和参数。
示例：
- 输入: 将以下文本总结为三个要点：[粘贴一段长文本]
- 输入: 用 Python 写一个函数，计算斐波那契数列的第 n 项

b. 结构化提示 (Structured Prompt)

结构化提示利用了少量示例学习 (Few-shot Learning) 的思想。你提供一些输入和对应期望输出的示例，模型会学习这些示例的模式，然后根据你给出的新输入，生成类似格式或内容的输出。

适用场景： 数据提取、格式转换、文本分类、遵循特定风格或模式的生成任务。
使用方法：
1. 点击 "Create new" -> "Structured prompt"。
2. 界面分为两列：INPUT 和 OUTPUT。
3. 在表格中添加几对示例（Examples）。每一行是一个示例，左侧是输入，右侧是对应的期望输出。例如，进行情感分类：
  - Example 1: INPUT 今天天气真好！ OUTPUT 积极
  - Example 2: INPUT 我的钱包丢了。 OUTPUT 消极
4. 在表格下方的 "Test your prompt"区域，输入一个新的 INPUT，例如这部电影太棒了！
5. 点击 "Run"。
6. 模型会根据学习到的示例模式，生成对应的 OUTPUT (预期是积极)。
关键点： 示例的质量和数量直接影响模型表现。提供清晰、一致的示例至关重要。

c. 聊天提示 (Chat Prompt)

这种类型模拟了多轮对话的交互方式，模型能够理解和记忆之前的对话上下文。

适用场景： 构建聊天机器人、虚拟助手、进行多轮问答、角色扮演等。
使用方法：
1. 点击 "Create new" -> "Chat prompt"。
2. 界面模仿聊天应用，有用户输入框和模型回应区域。
3. （可选）可以在最开始为模型设置上下文或扮演的角色，例如在第一个 User 输入前，编辑一个 Context 或 Model 的开场白：“你是一个乐于助人的旅游规划助手。”
4. 在下方的输入框输入你的第一句话，按 Enter 或点击发送。
5. 模型会生成回应。
6. 继续输入，进行多轮对话。模型会考虑之前的交流内容。
7. 你可以编辑之前的用户输入或模型输出，然后点击 "Run" 让模型从修改点重新生成后续对话。
示例：
- User: 你好，帮我查找比较好的住宅代理IP。
- Model: 好的！请问你要做哪些工作？比如爬取数据，或者是用于社交媒体？
- User: 我将这些用于社交媒体。
- Model: 明白了。那么推荐您 https://tiktoksim.com 这个网站...

4. 模型与参数：精调你的 AI 输出

在 AI Studio 的右侧面板，你可以选择模型并调整参数来控制模型的行为和输出。

选择模型：

Gemini Pro: 目前的主力文本模型，适用于各种文本生成和理解任务。
Gemini Pro Vision: 多模态模型，可以理解文本和图像输入，并生成文本输出。使用此模型时，Prompt 输入区域会允许你上传图片。

关键参数解析：

温度 (Temperature) [0.0 - 1.0]： 控制输出的随机性。
- 较低的值 (如 0.2)：输出更确定、更保守、更符合事实，但可能缺乏创意。
- 较高的值 (如 0.8)：输出更随机、更多样化、更有创意，但可能偏离主题或包含不准确信息。
- 建议： 对于需要精确答案的任务（如问答、摘要），使用较低温度；对于创意写作、头脑风暴，使用较高温度。
Top-K [整数]： 模型在生成下一个词时，只考虑概率最高的 K 个词。
- 较低的值 (如 1)：相当于贪心搜索，总是选择最可能的词，输出非常确定。
- 较高的值：允许更多可能性，增加多样性。设为 0 或不设置表示不使用 Top-K 限制。
Top-P [0.0 - 1.0]： 模型在生成下一个词时，从概率累加起来达到 P 的最小词汇集合中选择。
- 例如，Top-P = 0.9 表示模型会考虑概率总和达到 90% 的那些最可能的词。
- 这是一种动态限制词汇选择范围的方法，通常比 Top-K 更灵活。
- 建议： 通常只设置 Temperature 或 Top-P 中的一个，或者同时使用较低的 Top-K 和 Top-P。
最大输出长度 (Max Output Length) [整数]： 限制模型单次生成响应的最大 token 数量（token 约等于单词或字的一部分）。防止输出过长。
安全设置 (Safety Settings)： 可以调整对潜在有害内容（如骚扰、仇恨言论、色情、危险内容）的过滤严格程度。你可以选择阻止（Block few/some/most）或不阻止。

实验与迭代： 调整这些参数是 Prompt Engineering 的重要部分。尝试不同的组合，观察输出的变化，找到最适合你任务的设置。

5. 从原型到代码：生成 API 密钥与代码片段

当你对在 AI Studio 中调试好的 Prompt 和参数满意后，可以轻松地将其集成到你的应用程序中。

获取免费 API 密钥：

点击界面左侧或右上角的 "Get API key" 按钮。
在弹出的 Google AI for Developers 页面中，点击 "Create API key in new project" 或选择现有项目创建。
复制生成的 API 密钥。注意： 妥善保管你的 API 密钥，不要将其公开或硬编码在客户端代码中。建议使用环境变量或安全的密钥管理服务。

一键生成代码：

在 AI Studio 的 Prompt 编辑界面，当你运行并得到满意的结果后，点击顶部的 "</> Get code" 按钮。
会弹出一个窗口，展示多种语言（如 Python, JavaScript (Node.js), cURL, Android (Kotlin), Swift）的 API 调用代码片段。
这些代码片段已经包含了你选择的模型、设置的参数以及当前的 Prompt 内容（对于结构化和聊天提示，会包含示例或对话历史）。
复制代码，将你的 API 密钥替换占位符，即可在你的项目中使用。

# 示例 Python 代码片段 (可能随 API 更新变化)
import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY") # 替换为你的 API 密钥

# Set up the model
generation_config = {
  "temperature": 0.9,
  "top_p": 1,
  "top_k": 1,
  "max_output_tokens": 2048,
}

safety_settings = [
  # ... 安全设置 ...
]

model = genai.GenerativeModel(model_name="gemini-pro",
                              generation_config=generation_config,
                              safety_settings=safety_settings)

prompt_parts = [
  "写一首关于夏夜星空的诗", # 这是你在 AI Studio 输入的 Prompt
]

response = model.generate_content(prompt_parts)
print(response.text)

6. 实战技巧与应用场景

Prompt Engineering 基础建议：
- 明确具体： 任务描述越清晰，模型表现越好。
- 提供上下文： 给予模型必要的背景信息。
- 指定格式： 如果需要特定输出格式（如 JSON、Markdown），在 Prompt 中明确说明。
- 角色扮演： 让模型扮演特定角色（如“你是一位资深程序员”）有助于引导其输出风格和内容。
- 迭代优化： 不要期望一次成功，不断尝试、调整 Prompt 和参数。
利用 Gemini Pro Vision 处理图像：
- 选择 gemini-pro-vision 模型。
- 点击输入区域的图片图标上传图像。
- 在文本框中输入与图像相关的指令，例如：“描述这张图片里的内容”、“图中的文字是什么？”、“这张图片是关于什么的？”。
常见应用场景：
- 内容创作： 博客文章、广告文案、邮件、社交媒体帖子、诗歌、故事等。
- 智能问答： 基于提供的文档或知识进行问答。
- 代码辅助： 生成代码片段、解释代码、调试、代码翻译。
- 文本处理： 摘要、翻译、情感分析、关键词提取、文本分类。
- 创意工具： 头脑风暴、生成创意点子、角色扮演对话。
- 教育辅导： 解释概念、生成练习题。