不用多模态GPT4，HuggingFace+LangChain实现“看图说话”

fireshort

已于 2023-12-04 17:28:49 修改

阅读量657

点赞数

分类专栏： ai 文章标签： langchain

于 2023-11-17 11:30:16 首次发布

本文链接：https://blog.csdn.net/fireshort/article/details/134459321

版权

本文介绍了如何不依赖多模态的GPT4，利用Hugging Face的Salesforce/blip-image-captioning-large模型进行图片描述，然后通过LangChain调用大语言模型生成小故事。首先，通过Hugging Face的pipeline获取图片描述，接着使用LangChain与大模型（如GPT4或百川）交互，生成与图片描述相关的小故事。文章展示了LangChain的灵活性，使得更换不同大模型变得容易。

摘要由CSDN通过智能技术生成

目前最热门的“闭源”人工智能是OpenAI，称得上是如日中天（遥遥领先？这个词最近听得太多，总感觉像是讽刺，对于真正的王者来说），然而其很多功能却没那么容易体验到，如多模态，暂时就无法通过API调用。

那么要实现一个简单的“看图说话”，要如何做呢？可以分两步：

通过开源的模型，让开源模型识别图片的内容，生成一句话文本描述；
让大语言模型针对文本描述生成一个简短的小故事。

提到开源模型，那就不能不提Hugging Face：https://huggingface.co/

Hugging Face是一个专注于自然语言处理(NLP)的人工智能研究组织，一个生气勃勃的开源AI社区。他们以其开源库Transformers 而闻名，该库为各种任务（如文本分类、翻译、摘要等)提供了先进的 NLP模型和工具。

我们先去Hugging Face上找图片到文本的模型：
在这里插入图片描述
我们这次用”Salesforce/blip-image-captioning-large“这个模型根据图片生成一句文本描述。不过这个模型有点大（1.8G），如果只是简单测试，也可以找小一点的模型，不然光下载模型都要花比较长的时间。

这些模型统称pretrained model，就是预先训练好了，不再需要训练，下载下来就可以直接使用。

生成图片描述

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())  # read local .env file

from IPython.display import Image
from transformers import pipeline

pipe = pipeline("image-to-text",
                model="Salesforce/blip-image-captioning-large")