在上一章中,你已学会如何向 OpenAI 模型输入单张图像并获取自然语言响应。本章将进一步深入,讲解图像输入的关键参数——特别是 detail
精度参数的使用方法,以及如何同时输入多张图像并进行比对或联合分析。
文章目录
2.1 控制图像分析精度:detail
参数详解
通过设置 detail
参数,我们可以控制模型处理图像时的分析粒度,从而影响输出质量和 API 成本。
参数选项说明
参数值 | 含义说明 | Token 成本 |
---|---|---|
low | 低精度模式,仅对缩略图进行粗略分析 | 固定为 85 tokens |
high | 高精度模式,会生成多个图像裁切块,逐块细致分析 | 每块 170 tokens + 85 |
auto | 自动判断所需精度(默认) | 模型根据上下文自动选择 |
示例:使用 detail: "high"
{
"type": "input_image",
"image_url": "https://example.com/image.jpg",
"detail": "high"
}
✅ 小贴士:
如果你只关心颜色、轮廓、数量等大致信息,建议使用"detail": "low"
,可以节省大量 Token 成本;如需精准理解图中文字、物体关系、细节纹理,建议设为"high"
。
2.2 多图输入能力:同时分析多张图像
OpenAI 模型支持将 多张图像 一次性输入,模型将并行处理并融合信息,为问题提供综合性回答。这在进行对比、排序、匹配等任务时非常实用。
示例代码:对比两张图片
response = client.responses.create(
model="gpt-4o-mini",
input=[
{
"role": "user",
"content": [
{
"type": "input_text",
"text": "这两张图片有什么不同?",
},
{
"type": "input_image",
"image_url": "https://example.com/image1.jpg",
},
{
"type": "input_image",
"image_url": "https://example.com/image2.jpg",
},
],
}
]
)
print(response.output_text)
模型将读取两张图片,并尝试总结出它们的相同点与差异点。
✅ 小贴士:
多图输入建议不超过 4 张图,以避免上下文 token 限制溢出。图像之间无需排序,模型能自动关联它们。
2.3 图像成本计算方式
使用图像输入时,将按图像分辨率与 detail
设置计算 token 成本,与你的 OpenAI 账户中 tokens-per-minute (TPM) 限额直接相关。
成本计算方式:
- 若使用
"detail": "low"
,固定成本为 85 tokens。 - 若使用
"detail": "high"
:- 图像会被缩放至短边为 768px,最长边不超过 2048px;
- 然后切成多个 512x512 图块,每块 170 tokens;
- 最终总成本 =
170 * 块数 + 85
示例:
- 一张 1024×1024 图像,缩放后为 768×768,需要 4 个图块 → 成本:
170*4 + 85 = 765 tokens
- 一张 4096×8192 图像,使用
low
精度,仅需 85 tokens!
✅ 小贴士:
高分辨率图像可造成数百 tokens 的成本。建议使用 Pillow 等工具提前裁剪或缩小图像。
2.4 常见限制与注意事项
尽管图像输入功能强大,但目前仍存在一些已知局限,了解这些限制可以帮助你规避错误:
限制类型 | 说明 |
---|---|
医疗图像 | 不建议用于诊断类图像(如 CT、X 光) |
小字体/模糊 | 模型难以识别小尺寸或模糊字体 |
图像方向 | 倾斜或倒置图像可能识别失败 |
空间推理 | 精确定位任务(如国际象棋坐标)不准确 |
图表样式 | 难以辨别颜色、线型、虚线/实线区别 |
元数据与文件名 | 模型不会读取 EXIF 或文件名信息 |
全景图像 | 模型无法处理鱼眼或超宽角图像 |
对象计数 | 数量识别通常是近似值 |
CAPTCHA | 模型禁止处理验证码图像 |
✅ 小贴士:
处理带文字图像时,确保图中文字足够大、清晰且非倾斜,以提升识别准确度。
🧪 练习区
练习 1:调节图像精度影响结果
- 选用一张细节丰富的图片(如街景),用
detail: "low"
和detail: "high"
分别输入; - 比较两次返回的文本描述,观察是否有明显差异。
练习 2:图像对比任务
- 准备两张相似但略有区别的图片(如不同时间拍摄的公园);
- 使用多图输入方式,请模型找出它们的不同之处;
- 将提示词换成英文,看是否有描述差异。
练习 3:成本计算模拟
- 选取不同尺寸的图片(512x512、1024x1024、2048x4096);
- 手动估算
high
模式下的 token 成本,验证计算方法是否准确。
本章小结
本章你已学会:
- 如何使用
detail
参数控制图像分析粒度 - 如何将多张图像输入模型进行综合分析
- 掌握图像成本的计算规则,学会用 token 合理规划分析策略
- 熟悉图像输入在实践中的已知限制与规避技巧