【RAG评估】2. 实战：LangChain x RAGAs x LangSmith联合评估RAG应用，兼看如何借助LangSmith有效学习LangChain

最新推荐文章于 2024-09-08 09:00:00 发布

大模型老猿

最新推荐文章于 2024-09-08 09:00:00 发布

阅读量2.2k

点赞数 33

文章标签： langchain 学习数据库人工智能 Agent LLM llama

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/139501759

版权

我们详细讲解了RAGAs的原理和实现方式，今天我们完整的实战一遍。将RAGAs集成在LangChain的RAG应用中，同时打通LangSmith平台，使评估过程可视化。

实践完之后，通过LangSmith平台，还会有意外收获：带你看看如何利用LangSmith平台来有效学习LangChain的使用和相关知识。

0. 前置 - 环境安装

安装 langchain 和 ragas，注意安装ragas的 0.0.22 版本

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U langchain
pip install ragas==0.0.22

如果安装了高版本的 ragas，例如 >= 0.1 版本，运行本文的代码会报错：

ModuleNotFoundError: No module named ‘ragas.langchain’

原因是现在 langchain 还没有对 ragas 0.1 及以后版本作兼容（截止到 2024-02-25）。目前有两个选择：

（1）不使用 langchain 来实现你的功能，也就不用 langchain 内的 ragas，直接使用原生的 ragas。

（2）使用 ragas 的 0.0.22 版本

ragas 0.1 does not yet have this feature. We are working on it, for now you have two options

Use ragas natively w/o the chain, in this way, you get all the new capabilities of 0.1 version
reinstall and use 0.0.22

1. 创建RAG

0.1 文本加载

这里使用 langchain 中的 WebBaseLoader 来加载 html 数据：loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")

WebBaseLoader是LangChain中集成的用于加载网页中文字的类，详细使用方式可参考这里。

from langchain_community.document_loaders import WebBaseLoader
loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")
loader.requests_kwargs = {'verify':False}
data = loader.load()
print(data)

将加载到的html数据打印出来看下，如下：

0.2 创建向量索引

0.2.1 代码

from langchain.indexes import VectorstoreIndexCreator
index = VectorstoreIndexCreator().from_loaders([loader])

0.2.2 `VectorstoreIndexCreator` 介绍

VectorstoreIndexCreator 是一个用于创建索引的组件，用于查询文本文档。它将文档分割成更小的块，为每个文档生成嵌入（即数字表示），并将文档及其嵌入存储在向量库中，然后可以对其进行查询以检索相关文档。

回顾我们创建索引的过程：加载文档 —> 分割文本 —> 生成文本向量，存储。

这里利用 VectorstoreIndexCreator 一行代码就搞定了。所以，VectorstoreIndexCreator就是 LangChain 对以上过程的高层封装。看下它的源码：

from_loaders：通过传入的Loader加载文本数据，然后调用 from_documents
from_documents：切分文本，生成文本向量并存储

0.3 创建QA链

0.3.1 代码

from langchain.chains import RetrievalQA
from langchain_community.chat_models import ChatOpenAI
llm = ChatOpenAI()
qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True
)

0.3.2 `RetrievalQA` 介绍

参考文档：https://python.langchain.com/docs/modules/chains/#legacy-chains

RetrievalQA 是 LangChain对问答类Chain的高层封装，它内部首先做检索步骤，然后将检索到的文档给到 LLM 生成结果。

0.4 提问，运行QA链，得到RAG结果

question = "纽约市的名字是怎么得来的?"
result = qa_chain({"query": question})
# result["result"]
print("========= chain result ==========")
print(result)

这里关注下返回结果的结构，其中的key值为：

query
result
source_documents

这个key值很关键，后面的RAGAs内部就是去取这些Key值里面的内容，错一个字符都会提取不到数据，报错。

1. 加入评估

context_recall 指标需要给定参考结果，放到key值为"ground_truths"的地方。没有"ground_truths"，该指标的评估会报错。

主要使用 RagasEvaluatorChain 链。

result['ground_truths'] = "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。"
from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recall
from ragas.langchain.evalchain import RagasEvaluatorChain
# make eval chains
eval_chains = {
    m.name: RagasEvaluatorChain(metric=m) 
    for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]
}
# evaluate
for name, eval_chain in eval_chains.items():
    score_name = f"{name}_score"
    print(f"{score_name}: {eval_chain(result)[score_name]}")

运行结果：

2. 接入LangSmith

接入 LangSmith，只需在代码最前面加入以下代码。

import os
os.environ["LANGCHAIN_API_KEY"] = "ls__xxxxxx"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_PROJECT"]="test-ragas"

运行程序之后，可以在LangSmith平台看到当前程序的运行过程。从下图可以看到一共运行了5个链，一个RetrievalQA链，四个RagasEvaluatorChain评估链（因为使用了四个测试指标），点击相应链，可以看到详细的运行过程日志和运行统计。

3. 完整代码

import os
os.environ["LANGCHAIN_API_KEY"] = "ls__xxxxxx"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_PROJECT"]="test-ragas"
from langchain_community.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain_community.chat_models import ChatOpenAI
# load the Wikipedia page and create index
loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")
loader.requests_kwargs = {'verify':False}
index = VectorstoreIndexCreator().from_loaders([loader])
# create the QA chain
llm = ChatOpenAI()
qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True
)
# # testing it out
question = "纽约市的名字是怎么得来的?"
result = qa_chain({"query": question})
# result["result"]
print("========= chain result ==========")
print(result)
result['ground_truths'] = "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。"
from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recall
from ragas.langchain.evalchain import RagasEvaluatorChain
# make eval chains
eval_chains = {
    m.name: RagasEvaluatorChain(metric=m) 
    for m in [faithfulness, answer_relevancy, context_relevancy, context_recall]
}
# evaluate
for name, eval_chain in eval_chains.items():
    score_name = f"{name}_score"
    print(f"{score_name}: {eval_chain(result)[score_name]}")

4. 使用LangSmith中的测试数据集进行测试

除了以上在运行过程中实时获取评估结果，我们还可以针对某些数据集进行集中评估。下面是操作方法。

4.1 创建及数据集

首先可以创建一个数据集。

create_dataset：用来在LangSmith平台创建数据集
read_dataset：用来读取LangSmith平台的数据集

# 测试数据集
eval_questions = [
    "纽约市的名字是怎么得来的?",
]
eval_answers = [
    "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。",
]
examples = [{"query": q, "ground_truths": [eval_answers[i]]} for i, q in enumerate(eval_questions)]
# dataset creation
from langsmith import Client
from langsmith.utils import LangSmithError
client = Client()
dataset_name = "NYC test"
try:
    # check if dataset exists
    dataset = client.read_dataset(dataset_name=dataset_name)
    print("using existing dataset: ", dataset.name)
except LangSmithError:
    # if not create a new one with the generated query examples
    dataset = client.create_dataset(
        dataset_name=dataset_name, description="NYC test dataset"
    )
    for e in examples:
        client.create_example(
            inputs={"query": e["query"]},
            outputs={"ground_truths": e["ground_truths"]},
            dataset_id=dataset.id,
        )
    print("Created a new dataset: ", dataset.name)

4.2 使用数据集进行评估

（1）首先定义评估函数：RunEvalConfig，这里填入的是四个评估指标链

（2）run_on_dataset，执行测试

from langchain.smith import RunEvalConfig, run_on_dataset
evaluation_config = RunEvalConfig(
    custom_evaluators=[
        faithfulness_chain,
        answer_rel_chain,
        context_rel_chain,
        context_recall_chain,
    ],
    prediction_key="result",
)
result = run_on_dataset(
    client,
    dataset_name,
    qa_chain,
    evaluation=evaluation_config,
    input_mapper=lambda x: x,
)

4.3 完整代码

import os
os.environ["LANGCHAIN_TRACING_V2"]="true"
os.environ["LANGCHAIN_PROJECT"]="test-ragas2"
from langchain_community.document_loaders import WebBaseLoader
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain_community.chat_models import ChatOpenAI
# load the Wikipedia page and create index
loader = WebBaseLoader("https://baike.baidu.com/item/%E7%BA%BD%E7%BA%A6/6230")
loader.requests_kwargs = {'verify':False}
index = VectorstoreIndexCreator().from_loaders([loader])
# create the QA chain
llm = ChatOpenAI()
qa_chain = RetrievalQA.from_chain_type(
    llm, retriever=index.vectorstore.as_retriever(), return_source_documents=True
)
from ragas.metrics import faithfulness, answer_relevancy, context_relevancy, context_recall
from ragas.langchain.evalchain import RagasEvaluatorChain
# create evaluation chains
faithfulness_chain = RagasEvaluatorChain(metric=faithfulness)
answer_rel_chain = RagasEvaluatorChain(metric=answer_relevancy)
context_rel_chain = RagasEvaluatorChain(metric=context_relevancy)
context_recall_chain = RagasEvaluatorChain(metric=context_recall)
# 测试数据集
eval_questions = [
    "纽约市的名字是怎么得来的?",
]
eval_answers = [
    "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。",
]
examples = [{"query": q, "ground_truths": [eval_answers[i]]} for i, q in enumerate(eval_questions)]
# dataset creation
from langsmith import Client
from langsmith.utils import LangSmithError
client = Client()
dataset_name = "ragas test data"
try:
    # check if dataset exists
    dataset = client.read_dataset(dataset_name=dataset_name)
    print("using existing dataset: ", dataset.name)
except LangSmithError:
    # if not create a new one with the generated query examples
    dataset = client.create_dataset(
        dataset_name=dataset_name, description="NYC test dataset"
    )
    for e in examples:
        client.create_example(
            inputs={"query": e["query"]},
            outputs={"ground_truths": e["ground_truths"]},
            dataset_id=dataset.id,
        )
    print("Created a new dataset: ", dataset.name)
    
from langchain.smith import RunEvalConfig, run_on_dataset
evaluation_config = RunEvalConfig(
    custom_evaluators=[
        faithfulness_chain,
        answer_rel_chain,
        context_rel_chain,
        context_recall_chain,
    ],
    prediction_key="result",
)
result = run_on_dataset(
    client,
    dataset_name,
    qa_chain,
    evaluation=evaluation_config,
    input_mapper=lambda x: x,
)

注意：这里与前面方法的区别在于，利用测试数据集来测试时，不用再自己调用大模型获取result了，也不用自己再一个一个调用评估链了，也就是下面的代码不用了，这些在run_on_dataset就帮你做了。

# # testing it out
question = "纽约市的名字是怎么得来的?"
result = qa_chain({"query": question})
# result["result"]
print("========= chain result ==========")
print(result)
result['ground_truths'] = "纽约市的名字“纽约”来源于荷兰战败后将新阿姆斯特丹割让给英国的事件。"

# evaluate
for name, eval_chain in eval_chains.items():
    score_name = f"{name}_score"
    print(f"{score_name}: {eval_chain(result)[score_name]}")

5. LangSmith助力LangChain学习

这里是一点意外收获，跟大家分享一下。

在使用 LangSmith 看运行过程的时候，发现它将 RetrievalQA 的详细过程列出来了：

首先是使用了Retriever
然后是使用了StuffDocumentsChain下的LLMChain，LLMChain下调用了LLM

而这个过程，在我们的代码中，仅一行：result = qa_chain({"query": question})。对于像我一样不知道 RetrievalQA 工作机制的人来说，从上面这个过程可以学习到一些内容，不用看源码就知道它里面首先自己进行了检索，然后内部自己调用了LLM。

这只是一个简单的感受，就是 LangSmith 的 Traces 功能有时候能帮助我们更好地了解LangChain内部的工作机制和工作步骤。

6. 遗留问题

我的LangSmith平台上关于评估链的信息是这样的：

它并没有跟踪到详细运行步骤，从前面文章中我们知道这几个指标都需要调用LLM，但这里没有跟踪到。网上的例子可以跟踪到评估链调用大模型的过程（当然这个教程（https://blog.langchain.dev/evaluating-rag-pipelines-with-ragas-langsmith/）时间好早了）：

不知道是不是因为LangChain现在不兼容RAGAS导致的。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍