《Prompt工程之OpenAI库》6）OpenAI 图像分析之输入参数详解与多图分析

本文链接：https://blog.csdn.net/qq_42540492/article/details/147221220

在上一章中，你已学会如何向 OpenAI 模型输入单张图像并获取自然语言响应。本章将进一步深入，讲解图像输入的关键参数——特别是 detail 精度参数的使用方法，以及如何同时输入多张图像并进行比对或联合分析。

文章目录

2.1 控制图像分析精度：`detail` 参数详解

通过设置 detail 参数，我们可以控制模型处理图像时的分析粒度，从而影响输出质量和 API 成本。

参数选项说明

参数值	含义说明	Token 成本
`low`	低精度模式，仅对缩略图进行粗略分析	固定为 85 tokens
`high`	高精度模式，会生成多个图像裁切块，逐块细致分析	每块 170 tokens + 85
`auto`	自动判断所需精度（默认）	模型根据上下文自动选择

示例：使用 `detail: "high"`

{
    "type": "input_image",
    "image_url": "https://example.com/image.jpg",
    "detail": "high"
}

✅ 小贴士：
如果你只关心颜色、轮廓、数量等大致信息，建议使用 "detail": "low"，可以节省大量 Token 成本；如需精准理解图中文字、物体关系、细节纹理，建议设为 "high"。

2.2 多图输入能力：同时分析多张图像

OpenAI 模型支持将 多张图像 一次性输入，模型将并行处理并融合信息，为问题提供综合性回答。这在进行对比、排序、匹配等任务时非常实用。

示例代码：对比两张图片

response = client.responses.create(
    model="gpt-4o-mini",
    input=[
        {
            "role": "user",
            "content": [
                {
                    "type": "input_text",
                    "text": "这两张图片有什么不同？",
                },
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image1.jpg",
                },
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image2.jpg",
                },
            ],
        }
    ]
)

print(response.output_text)

模型将读取两张图片，并尝试总结出它们的相同点与差异点。

✅ 小贴士：
多图输入建议不超过 4 张图，以避免上下文 token 限制溢出。图像之间无需排序，模型能自动关联它们。

2.3 图像成本计算方式

使用图像输入时，将按图像分辨率与 detail 设置计算 token 成本，与你的 OpenAI 账户中 tokens-per-minute (TPM) 限额直接相关。

成本计算方式：

若使用 "detail": "low"，固定成本为 85 tokens。
若使用 "detail": "high"：
- 图像会被缩放至短边为 768px，最长边不超过 2048px；
- 然后切成多个 512x512 图块，每块 170 tokens；
- 最终总成本 = 170 * 块数 + 85

示例：

一张 1024×1024 图像，缩放后为 768×768，需要 4 个图块 → 成本：170*4 + 85 = 765 tokens
一张 4096×8192 图像，使用 low 精度，仅需 85 tokens！

✅ 小贴士：
高分辨率图像可造成数百 tokens 的成本。建议使用 Pillow 等工具提前裁剪或缩小图像。

2.4 常见限制与注意事项

尽管图像输入功能强大，但目前仍存在一些已知局限，了解这些限制可以帮助你规避错误：

限制类型	说明
医疗图像	不建议用于诊断类图像（如 CT、X 光）
小字体/模糊	模型难以识别小尺寸或模糊字体
图像方向	倾斜或倒置图像可能识别失败
空间推理	精确定位任务（如国际象棋坐标）不准确
图表样式	难以辨别颜色、线型、虚线/实线区别
元数据与文件名	模型不会读取 EXIF 或文件名信息
全景图像	模型无法处理鱼眼或超宽角图像
对象计数	数量识别通常是近似值
CAPTCHA	模型禁止处理验证码图像