利用多模态提示：描述和比较图像的技巧_多模态图片标注诀窍-CSDN博客

本文链接：https://blog.csdn.net/afTFODguAKBF/article/details/142799030

引言

在现代人工智能的应用中，多模态提示为我们提供了处理多种输入类型的强大工具。这篇文章将展示如何使用提示模板来格式化多模态输入，以便模型能够有效地理解和生成响应。我们将以图像描述为例，展示如何构建和使用提示来让模型描述单张图片或对比两张图片。

主要内容

多模态提示简介

多模态提示是指同时使用多种输入类型（如文本、图像、音频等）来与模型交互。通过这种方式，我们可以让模型在多种感知渠道上生成更为复杂的输出。

图像编码

在使用图像作为输入时，首先需要将其编码为模型可以处理的格式。在Python中，base64编码是较常用的方法之一，可以将图像数据转换为字符串形式。

提示模板

通过使用提示模板，我们可以定义模型接收到的信息类型和预期操作。langchain_core.prompts.ChatPromptTemplate 是一种用于构建多种提示格式的工具。

使用API代理服务

由于某些地区的网络限制，在使用API时，开发者可能需要考虑使用API代理服务来提高访问的稳定性。

代码示例

以下是完整的代码示例，展示如何利用多模态提示来描述单张图像和比较两张图像。

import base64
import httpx
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# 图像URL
image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

# 初始化模型
model = ChatOpenAI(model="gpt-4o")

# 描述单张图片的提示
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data": image_data})
print(response.content)

# 比较两张图片的提示
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "compare the two pictures provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data1}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data2}"},
                },
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data1": image_data, "image_data2": image_data})
print(response.content)