《Prompt工程之OpenAI库》6)OpenAI 图像分析之输入参数详解与多图分析

在上一章中,你已学会如何向 OpenAI 模型输入单张图像并获取自然语言响应。本章将进一步深入,讲解图像输入的关键参数——特别是 detail 精度参数的使用方法,以及如何同时输入多张图像并进行比对或联合分析。

2.1 控制图像分析精度:detail 参数详解

通过设置 detail 参数,我们可以控制模型处理图像时的分析粒度,从而影响输出质量和 API 成本。

参数选项说明

参数值含义说明Token 成本
low低精度模式,仅对缩略图进行粗略分析固定为 85 tokens
high高精度模式,会生成多个图像裁切块,逐块细致分析每块 170 tokens + 85
auto自动判断所需精度(默认)模型根据上下文自动选择

示例:使用 detail: "high"

{
    "type": "input_image",
    "image_url": "https://example.com/image.jpg",
    "detail": "high"
}

小贴士:
如果你只关心颜色、轮廓、数量等大致信息,建议使用 "detail": "low",可以节省大量 Token 成本;如需精准理解图中文字、物体关系、细节纹理,建议设为 "high"


2.2 多图输入能力:同时分析多张图像

OpenAI 模型支持将 多张图像 一次性输入,模型将并行处理并融合信息,为问题提供综合性回答。这在进行对比、排序、匹配等任务时非常实用。

示例代码:对比两张图片

response = client.responses.create(
    model="gpt-4o-mini",
    input=[
        {
            "role": "user",
            "content": [
                {
                    "type": "input_text",
                    "text": "这两张图片有什么不同?",
                },
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image1.jpg",
                },
                {
                    "type": "input_image",
                    "image_url": "https://example.com/image2.jpg",
                },
            ],
        }
    ]
)

print(response.output_text)

模型将读取两张图片,并尝试总结出它们的相同点与差异点。

小贴士:
多图输入建议不超过 4 张图,以避免上下文 token 限制溢出。图像之间无需排序,模型能自动关联它们。


2.3 图像成本计算方式

使用图像输入时,将按图像分辨率与 detail 设置计算 token 成本,与你的 OpenAI 账户中 tokens-per-minute (TPM) 限额直接相关。

成本计算方式:

  1. 若使用 "detail": "low",固定成本为 85 tokens
  2. 若使用 "detail": "high"
    • 图像会被缩放至短边为 768px,最长边不超过 2048px;
    • 然后切成多个 512x512 图块,每块 170 tokens;
    • 最终总成本 = 170 * 块数 + 85

示例:

  • 一张 1024×1024 图像,缩放后为 768×768,需要 4 个图块 → 成本:170*4 + 85 = 765 tokens
  • 一张 4096×8192 图像,使用 low 精度,仅需 85 tokens!

小贴士:
高分辨率图像可造成数百 tokens 的成本。建议使用 Pillow 等工具提前裁剪或缩小图像。


2.4 常见限制与注意事项

尽管图像输入功能强大,但目前仍存在一些已知局限,了解这些限制可以帮助你规避错误:

限制类型说明
医疗图像不建议用于诊断类图像(如 CT、X 光)
小字体/模糊模型难以识别小尺寸或模糊字体
图像方向倾斜或倒置图像可能识别失败
空间推理精确定位任务(如国际象棋坐标)不准确
图表样式难以辨别颜色、线型、虚线/实线区别
元数据与文件名模型不会读取 EXIF 或文件名信息
全景图像模型无法处理鱼眼或超宽角图像
对象计数数量识别通常是近似值
CAPTCHA模型禁止处理验证码图像

小贴士:
处理带文字图像时,确保图中文字足够大、清晰且非倾斜,以提升识别准确度。


🧪 练习区

练习 1:调节图像精度影响结果

  1. 选用一张细节丰富的图片(如街景),用 detail: "low"detail: "high" 分别输入;
  2. 比较两次返回的文本描述,观察是否有明显差异。

练习 2:图像对比任务

  1. 准备两张相似但略有区别的图片(如不同时间拍摄的公园);
  2. 使用多图输入方式,请模型找出它们的不同之处;
  3. 将提示词换成英文,看是否有描述差异。

练习 3:成本计算模拟

  1. 选取不同尺寸的图片(512x512、1024x1024、2048x4096);
  2. 手动估算 high 模式下的 token 成本,验证计算方法是否准确。

本章小结

本章你已学会:

  • 如何使用 detail 参数控制图像分析粒度
  • 如何将多张图像输入模型进行综合分析
  • 掌握图像成本的计算规则,学会用 token 合理规划分析策略
  • 熟悉图像输入在实践中的已知限制与规避技巧
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

这是Jamon

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值