langchain 入门指南 - 实现一个多模态 chatbot

最新推荐文章于 2025-03-31 21:08:51 发布

白如意i

最新推荐文章于 2025-03-31 21:08:51 发布

阅读量2.1k

点赞数 48

分类专栏： langchain 文章标签： langchain ai 人工智能

本文链接：https://blog.csdn.net/rubys007/article/details/140689258

版权

langchain 专栏收录该内容

19 篇文章

订阅专栏

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。

在前面的文章中，我们学会了如何通过 langchain 实现本地文档库的 QA，又或者通过 langchain 来实现对话式的问答系统。
在这篇文章中，我们将会学习如何通过 langchain 来实现一个多模态的 chatbot。

本文会构建一个有如下功能的 chatbot：

可以生成图片
可以回答用户的问题
可以检索本地文档库中的信息
可以从互联网进行搜索信息

什么是多模态

在前面的大部分例子中，我们跟 LLM 对话的时候都是使用了文本作为输入和输出。
但是除了文本，我们也可以让 LLM 来为我们生成图片。

多模态是指同时使用两种或两种以上的信息模式或表现形式。在人工智能和机器学习的背景下，
多模态通常指的是能够处理和融合不同类型数据的系统，这些数据可能包括文本、图像、音频、视频或其他传感器数据。

准备操作

配置 OPENAI_API_KEY 和 OPENAI_BASE_URL 环墋变量。
配置 SERPER_API_KEY 环境变量，可以从 https://serper.dev 获取。

如和实现对本地文档的 QA

在 langchain 中，RetrievalQA 是一个结合了检索（Retrieval）和问答（QA）的组件。
它允许你构建一个系统，该系统能够根据用户的提问，从提供的文档或知识库中检索相关信息，并回答用户的问题。

RetrievalQA 的工作流程如下：

检索（Retrieval）：当用户提出一个问题时，RetrievalQA 会使用一个检索机制（本文会使用向量数据库做语义检索）
阅读理解：一旦检索到相关的信息，RetrievalQA 会使用一个阅读理解模型来理解这些信息，并回答用户的问题。
问答：最后，RetrievalQA 会使用一个问答模型（ChatModel）来生成最终的回答。

RetrievalQA 的优势在于它能够处理大量复杂的信息，并提供精确的答案。它特别适合那些需要从大量文档中检索信息的场景，例如法律文件、医学文献、技术手册等。

直接跟 LLM 对话的时候，一般都会有一个上下文大小限制的问题，太大的文档无法全部放入到上下文中。
但是可以先分片存入向量数据库中，在跟 LLM 对话之前，再从向量数据库中检索出相关的文档。最终发给 LLM 的数据只有相关的文档，这样就能够更好地回答用户的问题。

将 pdf 存入向量数据库

我们可以使用自己的 pdf 文档。

在这个例子中，我们将会使用 langchain 来将一个 pdf 文档存入向量数据库中：

from langchain_community.document_loaders import PyPDFLoader

# 加载 pdf 文档
loader = PyPDFLoader("Spotmax_intro_cn_2020.pdf")
docs = loader.load()

# 文档分片
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_spliter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=10)

splits = text_spliter.split_documents(docs)
persist_directory = 'data/'

from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
embedding = OpenAIEmbeddings()
# 创建向量数据库
vectordb = Chroma.from_documents(
    documents=splits,
    embedding=embedding,
    collection_name="spotmax",
    persist_directory=persist_directory,
)
# 持久化向量数据库
vectordb.persist()

说明：

PyPDFLoader 是一个用于加载 pdf 文档的类。
RecursiveCharacterTextSplitter 是一个用于将文档分片的类。
Chroma 是一个向量数据库类，用于存储和检索向量化的文档。
vectordb 是 Chroma 的一个实例，用于存储和检索文档。
vectordb.persist() 用于将向量数据库持久化到磁盘。

通过上面的代码，我们将会把 Spotmax_intro_cn_2020.pdf 文档存入到向量数据库中。

使用 `RetrievalQA` 进行问答

在上一步将 pdf 文档存入向量数据库之后，我们就可以通过 Chroma 的实例来对其做语义检索了。

def qa(question):
    from langchain_community.vectorstores import Chroma
    from langchain_openai import OpenAIEmbeddings
    embedding = OpenAIEmbeddings()
    vectordb = Chroma(persist_directory='data/', embedding_function=embedding, collection_name='spotmax')

    from langchain.chains.retrieval_qa.base import RetrievalQA
    from langchain_openai import ChatOpenAI

    llm = ChatOpenAI(
        model_name="gpt-3.5-turbo",
        temperature=0,
        max_tokens=200,
    )
    retriever = vectordb.as_retriever(
        search_type="mmr",
        search_kwargs={"k": 3}
    )
    qa0 = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever,
                                     return_source_documents=False, verbose=True)
    result = qa0({"query": question})
    return result['result']

print(qa("Spotmax 是什么？"))

说明：

vectordb 是从现有的 Chroma 向量数据库中加载的。
llm 是最终回答用户问题的大模型。
retriever 是用于检索文档的检索器，用户的问题会先通过检索器检索到相关的文档。
RetrievalQA.from_chain_type 创建一个 RetrievalQA 实例，用于回答用户的问题。
qa0({"query": question}) 用户的问题会先通过 retriever 检索到相关的文档，然后再交给 LLM，通过 llm 来回答用户的问题。

让 LLM 生成图片

这个比较简单，使用 OpenAI 的 dall-e-2 模型即可：

def create_image(prompt):
    from openai import OpenAI
    client = OpenAI()
    response = client.images.generate(
        model='dall-e-2',
        prompt=prompt,
        size='256x256',
        quality='standard',
        n=1
    )
    u = response.data[0].url
    markdown_url = f"![image]({u})"
    return markdown_url

这个例子中，我们会根据用户的 prompt 生成一张 256x256 像素的图片，并且返回一个 markdown 链接形式的图片地址。

从互联网搜索信息

我们可以使用 GoogleSerperAPIWrapper 来从互联网搜索信息：

def query_web(question):
    """查询谷歌搜索结果"""
    from langchain_community.utilities import GoogleSerperAPIWrapper
    search = GoogleSerperAPIWrapper()
    return search.run(question)

如何让 chatbot 理解不同的操作？

我们可以使用 Agent 来让 chatbot 理解不同的操作：

将上面提供的几种操作封装成不同的 Tool。
创建一个 AgentExecutor，根据用户的输入，选择合适的 Tool 来执行。

from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
    model_name="gpt-4",
    temperature=0.7,
    max_tokens=1000,
)
from langchain.agents import Tool

tools = [
    Tool(
        name="Get current info",
        func=query_web,
        description="""only invoke it when you need to answer question about realtime info.
            And the input should be a search query."""
    ),
    Tool(
        name="query spotmax info",
        func=qa,
        description="""only invoke it when you need to get the info about spotmax/maxgroup/maxarch/maxchaos.
            And the input should be the question."""
    ),
    Tool(
        name="create an image",
        func=create_image,
        description="""invoke it when you need to create an image.
            And the input should be the description of the image."""
    )
]
from langchain.memory import ConversationBufferWindowMemory
from langchain.agents import ZeroShotAgent, AgentExecutor
from langchain.chains.llm import LLMChain

prefix = """Have a conversation with a human, answering the following questions as best you can. You have access to the following tools:"""
suffix = """Begin!"

{chat_history}
Question: {input}
{agent_scratchpad}"""

prompt = ZeroShotAgent.create_prompt(
    tools,
    prefix=prefix,
    suffix=suffix,
    input_variables=["input", "chat_history", "agent_scratchpad"],
)
memory = ConversationBufferWindowMemory(k=10, memory_key="chat_history")

llm_chain = LLMChain(llm=llm, prompt=prompt)
agent = ZeroShotAgent(llm_chain=llm_chain, tools=tools)
agent_chain = AgentExecutor.from_agent_and_tools(
    agent=agent, tools=tools, verbose=True, memory=memory, handle_parsing_errors=True

说明：

将前文提到的几种能力，封装为 AgentExecutor 可以使用的 Tool
使用 llm 以及 tools 作为参数创建一个 AgentExecutor

AgentExecutor

在 LangChain 中，AgentExecutor 是一个组件，它负责执行一个代理（Agent）的推理循环。Agent 是一个更高级的组件，它可以根据输入动态选择和执行工具（Tools）。

Agent 通常用于构建更复杂的应用，其中 AI 模型需要根据上下文做出决策，选择合适的行动方案，并执行这些方案以达到某个目标。例如，一个 Agent 可能需要决定何时查询数据库，何时生成文本，或者何时调用外部 API。

AgentExecutor 的作用是作为一个执行环境，它接收用户的输入，然后根据 Agent 的策略或算法来指导 Agent 如何使用可用的工具来处理这个输入。代理会生成一个或多个动作（Actions），每个动作都对应一个工具的调用。

AgentExecutor 会执行这些动作，并可能根据动作的结果更新 Agent 的状态，然后返回最终的输出给用户。

如何跟 AgentExecutor 交互

直接使用 AgentExecutor 的 invoke 方法即可：

agent_chain.invoke(question)

调用 invoke 之后，AgentExecutor 会根据用户的输入，选择合适的 Tool 来执行，然根据 Tool 的输出进行下一步操作（调用其他 Tool 或者生成最终答案等）。

界面展示

我们最后可以使用 gradio 来构建一个简单的 web 界面：

import gradio as gr

with gr.Blocks() as demo:
    chatbot = gr.Chatbot(height=500) # 对话框
    msg = gr.Textbox(label="Prompt") # 输入框
    btn = gr.Button("Submit") # 按钮
    clear = gr.ClearButton(components=[msg, chatbot], value="Clear console") # 清除按钮

    btn.click(respond, inputs=[msg, chatbot], outputs=[msg, chatbot])
    msg.submit(respond, inputs=[msg, chatbot], outputs=[msg, chatbot])

gr.close_all()
demo.launch()

这个例子中，我们添加了一个 chatbot 组件，以及为用户提供了一个输入框和一个提交按钮。

inputs 和 outputs 参数用于指定输入和输出的组件。inputs 会作为参数传递给 respond 函数，respond 的返回值会被传递给 outputs 组件。

最终效果如下：

在这里插入图片描述

AgentExecutor 的处理过程如下（Thought -> Action -> Observation -> Thought -> Final Answer）：

> Entering new AgentExecutor chain...
Thought: The question is asking for the current weather in Guangzhou and a male outfit recommendation. I can use the 'Get current info' tool to find the weather, and the 'create an image' tool to generate the outfit image.
Action: Get current info
Action Input: Guangzhou weather today
Observation: 94°F
Thought:The weather in Guangzhou is quite hot today. Now I need to think of an outfit that would be suitable for such warm weather.
Action: create an image
Action Input: A light summer outfit for men suitable for 94°F weather
Observation: ![image](https://oaidalleapiprodscus.blob.core.windows.net/private/org-GFz12lkhEotcvDvFYzePwrtK/user-1Ci7Ci1YNFjtlIO7AIY9aNux/img-zRsrd0cFFfxYAwW1oKZV9643.png?st=2024-07-24T05%3A29%3A33Z&se=2024-07-24T07%3A29%3A33Z&sp=r&sv=2023-11-03&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2024-07-23T23%3A15%3A19Z&ske=2024-07-24T23%3A15%3A19Z&sks=b&skv=2023-11-03&sig=g9L0m2GHy%2BHtC48NPVDBjZWVGfrXGQzRam6XayUZvJ0%3D)
Thought:I now have the final answer.
Final Answer: 广州今天的天气很热，达到了94°F。我为你创建了一张适合这种天气的男士夏季轻便穿搭图。请参考图片中的服装搭配。![image](https://oaidalleapiprodscus.blob.core.windows.net/private/org-GFz12lkhEotcvDvFYzePwrtK/user-1Ci7Ci1YNFjtlIO7AIY9aNux/img-zRsrd0cFFfxYAwW1oKZV9643.png?st=2024-07-24T05%3A29%3A33Z&se=2024-07-24T07%3A29%3A33Z&sp=r&sv=2023-11-03&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2024-07-23T23%3A15%3A19Z&ske=2024-07-24T23%3A15%3A19Z&sks=b&skv=2023-11-03&sig=g9L0m2GHy%2BHtC48NPVDBjZWVGfrXGQzRam6XayUZvJ0%3D)

> Finished chain.

我们可以看到在我提这个问题的时候，它做了如下操作：

思考，然后发现需要获取今天广州的天气，这是 LLM 不懂的，所以使用了 Get current info 工具。
获取到了天气信息之后，思考，然后发现需要生成一张图片，而我们有一个 create an image 工具，因此使用了这个工具来生成图片
最终返回了今天广州的天气状况以及一张图片。

当然，我们也可以问它关于本地知识库的问题，比如 “什么是 spotmax？”（根据你自己的 pdf 提问，这里只是一个示例）

完整代码

最终完整的代码如下：

qa 函数用于回答用户关于本地知识库的问题
create_image 函数用于生成图片
query_web 函数用于从互联网搜索信息
respond 函数用于处理 chatbot 的对话响应
agent_chain 是一个 AgentExecutor 实例，用于执行 Agent 的推理循环

import gradio as gr

def qa(question):
    from langchain_community.vectorstores import Chroma
    from langchain_openai import OpenAIEmbeddings
    embedding = OpenAIEmbeddings()
    vectordb = Chroma(persist_directory='data1/', embedding_function=embedding, collection_name='spotmax')

    from langchain.chains.retrieval_qa.base import RetrievalQA
    from langchain_openai import ChatOpenAI

    llm = ChatOpenAI(
        model_name="gpt-3.5-turbo",
        temperature=0,
        max_tokens=200,
    )
    retriever = vectordb.as_retriever(
        search_type="mmr",
        search_kwargs={"k": 3}
    )
    qa0 = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever,
                                     return_source_documents=False, verbose=True)
    result = qa0({"query": question})
    return result['result']

def create_image(prompt):
    from openai import OpenAI
    client = OpenAI()
    response = client.images.generate(
        model='dall-e-2',
        prompt=prompt,
        size='256x256',
        quality='standard',
        n=1
    )
    u = response.data[0].url
    markdown_url = f"![image]({u})"
    return markdown_url

def query_web(question):
    """查询谷歌搜索结果"""
    from langchain_community.utilities import GoogleSerperAPIWrapper
    search = GoogleSerperAPIWrapper()
    return search.run(question)

def respond(message, chat_history):
    """对话函数"""
    bot_message = get_response(message)
    chat_history.append((message, bot_message))
    return "", chat_history

from langchain_openai import ChatOpenAI
llm = ChatOpenAI(
    model_name="gpt-4",
    temperature=0.7,
    max_tokens=1000,
)
from langchain.agents import Tool

tools = [
    Tool(
        name="Get current info",
        func=query_web,
        description="""only invoke it when you need to answer question about realtime info.
            And the input should be a search query."""
    ),
    Tool(
        name="query spotmax info",
        func=qa,
        description="""only invoke it when you need to get the info about spotmax/maxgroup/maxarch/maxchaos.
            And the input should be the question."""
    ),
    Tool(
        name="create an image",
        func=create_image,
        description="""invoke it when you need to create an image.
            And the input should be the description of the image."""
    )
]
from langchain.memory import ConversationBufferWindowMemory
from langchain.agents import ZeroShotAgent, AgentExecutor
from langchain.chains.llm import LLMChain

prefix = """Have a conversation with a human, answering the following questions as best you can. You have access to the following tools:"""
suffix = """Begin!"

{chat_history}
Question: {input}
{agent_scratchpad}"""

prompt = ZeroShotAgent.create_prompt(
    tools,
    prefix=prefix,
    suffix=suffix,
    input_variables=["input", "chat_history", "agent_scratchpad"],
)
memory = ConversationBufferWindowMemory(k=10, memory_key="chat_history")

llm_chain = LLMChain(llm=llm, prompt=prompt)
agent = ZeroShotAgent(llm_chain=llm_chain, tools=tools, verbose=True, handle_parsing_errors=True)
agent_chain = AgentExecutor.from_agent_and_tools(
    agent=agent, tools=tools, verbose=True, memory=memory, handle_parsing_errors=True
)

def get_response(message):
    res = agent_chain.invoke(message)
    return res['output']

with gr.Blocks() as demo:
    chatbot = gr.Chatbot(height=500) # 对话框
    msg = gr.Textbox(label="Prompt") # 输入框
    btn = gr.Button("Submit") # 按钮
    clear = gr.ClearButton(components=[msg, chatbot], value="Clear console") # 清除按钮

    btn.click(respond, inputs=[msg, chatbot], outputs=[msg, chatbot])
    msg.submit(respond, inputs=[msg, chatbot], outputs=[msg, chatbot])

gr.close_all()
demo.launch()