通过改进嵌入模型,将你的RAG上下文召回率提高95%
检索增强生成(RAG)是一种将LLM(大型语言模型)集成到商业用例中的突出技术,它允许将专有知识注入LLM中。本文假设您已经了解RAG的相关知识,并希望提高您的RAG准确率。
让我们简要回顾一下这个过程。RAG模型包括两个主要步骤:检索和生成。在检索步骤中,涉及多个子步骤,包括将上下文文本转换为向量、索引上下文向量、检索用户查询的上下文向量以及重新排序上下文向量。一旦检索到查询的上下文,我们就进入生成阶段。在生成阶段,上下文与提示结合,然后发送给LLM以生成响应。在发送给LLM之前,可能需要进行缓存和路由步骤以优化效率。
对于每个管道步骤,我们将进行多次实验,以共同提高RAG的准确率。您可以参考以下图片,其中列出了在每个步骤中进行的实验(但不限于)。
开发者面临的一个主要问题是,在生产环境中部署应用程序时,准确性会有很大的下降。
“RAG在POC(原型)中表现最佳,在生产中最差。”这种挫败感在构建GenAI(通用人工智能)应用程序的开发者中很常见。
生成阶段已经通过一些提示工程得到了解决,但主要挑战是检索与用户查询相关且完整的上下文。这通过一个称为上下文召回率的指标来衡量,它考虑了为给定查询检索的相关上下文数量。检索阶段的实验目标是提高上下文召回率。
嵌入模型适配
在检索阶段进行的实验中,通过适配嵌入模型,可以显著地将您的上下文召回率提高+95%。
在适配嵌入模型之前,让我们了解其背后的概念。这个想法始于词向量,我们将训练模型理解单词的周围上下文(了解更多关于CBOW和Skipgram的信息)。在词向量之后,嵌入模型是专门设计来捕捉文本之间关系的神经网络。它们超越了单词级别的理解,以掌握句子级别的语义。嵌入模型使用掩码语言模型目标进行训练,其中输入文本的一定比例将被屏蔽以训练嵌入模型,以预测屏蔽的单词。这种方法使模型能够在使用数十亿个标记进行训练时理解更深层的语言结构和细微差别,结果生成的嵌入模型能够产生具有上下文感知的表示。这些训练好的嵌入模型旨在为相似的句子产生相似的向量,然后可以使用距离度量(如余弦相似度)来测量,基于此检索上下文将被优先考虑。
现在我们知道了这些模型是用来做什么的。它们将为以下句子生成相似的嵌入:
句子1:玫瑰是红色的
句子2:紫罗兰是蓝色的
它们非常相似因为这两句都在谈论颜色。
对于RAG,查询和上下文之间的相似度分数应该更高,这样就能检索到相关的上下文。让我们看看以下查询和来自PubmedQA数据集的上下文。
查询:肿瘤浸润性免疫细胞特征及其在术前新辅助化疗后的变化能否预测乳腺癌的反应和预后?
上下文:肿瘤微环境免疫与乳腺癌预后相关。高淋巴细胞浸润与对新辅助化疗的反应相关,但免疫细胞亚群特征在术前和术后残余肿瘤中的贡献仍不清楚。我们通过对121例接受新辅助化疗的乳腺癌患者进行免疫组化分析,分析了术前和术后肿瘤浸润性免疫细胞(CD3、CD4、CD8、CD20、CD68、Foxp3)。分析了免疫细胞特征并与反应和生存相关。我们确定了三种肿瘤浸润性免疫细胞特征,它们能够预测对新辅助化疗的病理完全缓解(pCR)(B簇:58%,与A簇和C簇:7%相比)。CD4淋巴细胞的高浸润是pCR发生的主要因素,这一关联在六个公共基因组数据集中得到了验证。化疗对淋巴细胞浸润的影响,包括CD4/CD8比率的逆转,与pCR和更好的预后相关。对化疗后残余肿瘤中免疫浸润的分析确定了一个特征(Y簇),其主要特征是CD3和CD68浸润高,与较差的无病生存率相关。
查询和上下文看起来相似吗?我们是否在使用嵌入模型的方式中使用了它们的设计意图?显然,不是!
作者提供的左侧图像;右侧图像归功于:[https://github.com/UKPLab/sentence-transformers/blob/master/docs/img/SemanticSearch.png](https://github.com/UKPLab/sentence-transformers/blob/master/docs/img/SemanticSearch.png),[Apache-2.0许可证](https://github.com/UKPLab/sentence-transformers#Apache-2.0-1-ov-file)
我们需要微调嵌入模型的原因是确保查询和相关的上下文表示更接近。为什么不从头开始训练呢?这是因为嵌入模型已经从数十亿个标记的训练中获得了对语言结构的理解,这些理解仍然可以加以利用。
微调嵌入模型
为了微调嵌入模型,我们需要包含类似预期用户查询和公司相关文档的数据集。我们可以利用语言模型(LLM)根据知识库文档生成查询。使用公司的知识库训练LLM就像提供了一个快捷方式,因为它允许嵌入模型在训练阶段本身访问上下文。
数据准备 - 训练和测试:
以下是数据准备步骤:
对于训练集:
-
1. 使用LLM从公司的知识库中挖掘所有可能的问题。
-
2. 如果知识库被分块,确保从所有块中挖掘问题。
对于测试集:
1. 从知识库中挖掘较少数量的问题。
2. 如果有,使用真实用户的问题。
3. 对训练集中的问题进行释义。
4. 结合并释义训练集和测试集中的问题。
我们中的大多数人都不会开发全领域的嵌入模型。我们创建的嵌入模型旨在在公司的知识库上表现更好。因此,使用公司的内部数据集训练嵌入模型并无害处。
对于本文,我们将使用Hugging Face上的"_qiaojin/PubMedQ"_数据集,它包含pubid、问题和上下文等列。pubid将用作问题ID。
from datasets import load_dataset med_data = load_dataset("qiaojin/PubMedQA", "pqa_artificial", split="train") med_data
pubid
是一个唯一的ID,它指向行。我们将使用pubid
作为问题ID。
为了训练嵌入模型,我们将使用sentence-transformer训练器进行训练,但你也可以使用huggingface训练器。此外,我们使用_MultipleNegativeRankingLoss_来微调我们的模型,但同样的效果也可以通过使用多种损失函数实现,例如_TripletLoss_、_ContrastiveLoss_等。但是,对于每种损失,所需的数据不同。例如,对于tripletloss,你需要(查询,正例上下文,负例上下文)对,而在MultipleNegativeRankingLoss中,你只需要(查询,正例上下文)对。对于给定的查询,除了正例上下文之外的所有上下文都将被视为负例。
在我们的PubMedQA数据集中,每一行的"question"列包含一个问题,"context"列包含适合该问题的上下文列表。因此,我们需要扩展上下文列表列,并创建包含相应上下文的新列的单独行。
dataset = med_data.remove_columns(['long_answer', 'final_decision']) df = pd.DataFrame(dataset) df['contexts'] = df['context'].apply(lambda x: x['contexts']) # 展平上下文列表并重复问题 expanded_df = df.explode('contexts') # 可选:如果需要,重置索引 expanded_df.reset_index(drop=True, inplace=True) expanded_df = expanded_df[['question', 'contexts']] splitted_dataset = Dataset.from_pandas(expanded_df).train_test_split(test_size=0.05) expanded_df.head()
准备评估数据集:
现在,我们已经准备好了训练和测试数据集。接下来,让我们为评估准备数据集。对于评估,我们将使用LLM从上下文中挖掘问题,这样我们可以获得一个关于我们的嵌入模型改进效果的现实感受。从PubMedDataset中,我们将选择前250行,将上下文列表合并成每行一个字符串,然后发送给LLM进行问题挖掘。因此,对于每一行,LLM可能会输出大约10个问题。这样,我们将有大约2500个问题-上下文对用于评估。
from openai import OpenAI from tqdm.auto import tqdm eval_med_data_seed = med_data.shuffle().take(251) client = OpenAI(api_key="<YOUR_API_KEY>") prompt = """Your task is to mine questions from the given context. Example question is also given to you. You have to create questions and return as pipe separated values(|) <Context> {context} </Context> <Example> {example_question} </Example> """ questions = [] for row in tqdm(eval_med_data_seed): question = row["question"] context = "\n\n".join(row["context"]["contexts"]) question_count = len(row["context"]["contexts"]) message = prompt.format(question_count=question_count, context=context, example_question=question) completion = client.chat.completions.create( model="gpt-4o", messages=[ {"role": "system", "content": "You are a helpful assistant."}, { "role": "user", "content": message } ] ) questions.append(completion.choices[0].message.content.split("|")) eval_med_data_seed = eval_med_data_seed.add_column("test_questions", questions) df = eval_med_data_seed.to_pandas() eval_data = Dataset.from_pandas(df.explode("test_questions")) eval_data.to_parquet("test_med_data2.parquet")
在我们开始训练之前,我们需要使用上面创建的评估数据集来准备评估器。
准备评估器:
sentence-transformer库提供了各种评估器,如_EmbeddingSimilarityEvaluator_、BinaryClassificationEvaluator_和_InformationRetrievalEvaluator。对于我们的特定用例,即训练用于RAG的嵌入模型,_InformationRetrievalEvaluator_是最合适的选择。此外,可以添加多个评估器并用于评分。
给定一组查询和大型语料库集,信息检索评估器将为每个查询检索最相似的top-k个文档。信息检索评估器将使用各种指标来评估模型,如Recall@k、Precision@k、MRR和Accuracy@K,其中k将是1、3、5和10。对于RAG,Recall@K指标是最重要的,因为它表明检索器可以成功检索多少个相关上下文。这一点至关重要,因为如果检索器可以检索到正确的上下文,生成的内容很可能会是准确的,即使我们有额外的非相关上下文。
eval_context_id_map = {} for row in eval_data: contexts = row["context"]["contexts"] for context, context_id in zip(contexts, row["context_ids"]): eval_context_id_map[context_id] = context eval_corpus = {} # Our corpus (cid => document) eval_queries = {} # Our queries (qid => question) eval_relevant_docs = {} # Query ID to relevant documents (qid => set([relevant_cids]) for row in eval_data: pubid = row.get("pubid") eval_queries[pubid] = row.get("test_questions") eval_relevant_docs[pubid] = row.get("context_ids") for context_id in row.get("context_ids"): eval_corpus[context_id] = eval_context_id_map[context_id]
_查询:将每个出版物的ID映射到其对应的问题。
_语料库:将每个上下文ID映射到上下文映射中的内容。
_相关文档:将每个出版物的ID关联到一个相关上下文ID的集合中。
在形成所有字典之后,我们可以从sentence_transformer包中创建一个InformationRetrievalEvaluator实例。
ir_evaluator = InformationRetrievalEvaluator( queries=eval_queries, corpus=eval_corpus, relevant_docs=eval_relevant_docs, name="med-eval-test", )
模型训练:
最后,让我们来训练我们的模型。使用sentence-transformer训练器进行训练非常简单。只需设置以下训练配置参数:
1. eval_steps - 指定模型多久评估一次。
2. save_steps - 指定模型多久保存一次。
3. num_train_epochs - 训练的轮数。
4. per_device_train_batch_size - 在单个GPU的情况下,这是批大小。
5. save_total_limit - 指定允许的最大保存模型数量。
6. run_name - 因为日志将被发布在wandb.ai上,所以运行名称是必要的。
然后,我们将我们的参数、训练数据集、测试数据集、损失函数、评估器和模型名称传递给训练器。现在您可以坐下来放松,直到训练完成。
对于我们的训练数据,训练模型大约需要3个小时,这包括了测试数据集和评估数据集的推理时间。
# Load base model model = SentenceTransformer("stsb-distilbert-base") output_dir = f"output/training_mnrl-{datetime.now():%Y-%m-%d_%H-%M-%S}" train_loss = MultipleNegativesRankingLoss(model=model) # Training arguments args = SentenceTransformerTrainingArguments( output_dir=output_dir, num_train_epochs=1, per_device_train_batch_size=64, eval_strategy="steps", eval_steps=250, save_steps=250, save_total_limit=2, logging_steps=100, run_name="mnrl" ) # Train the model trainer = SentenceTransformerTrainer(model=model, args=args, train_dataset=splitted_dataset["train"], eval_dataset=splitted_dataset["test"], loss=train_loss, evaluator=ir_evaluator) trainer.train()
Full results on the notebook attached at the end
结果
为了进行比较,让我们初始化两个模型的实例,一个带有训练好的权重,另一个带有未训练的权重。
untrained_pubmed_model = SentenceTransformer("stsb-distilbert-base") trained_pubmed_model = SentenceTransformer("/kaggle/input/sentencetransformerpubmedmodel/transformers/default/1/final")
ir_evaluator(untrained_pubmed_model) ir_evaluator(trained_pubmed_model)
结果非常明显,每个指标都有惊人的提升。以下是关注指标的提升情况:
-
recall@1 – 相比未训练模型提升了78.80%
-
recall@3 – 相比未训练模型提升了137.92%
-
recall@5 – 相比未训练模型提升了116.36%
-
recall@10 – 相比未训练模型提升了95.09%
分析结果后,很明显,嵌入模型增强了上下文召回率,从而显著提高了RAG生成的整体准确性。然而,一个缺点是需要监控知识库中文档的增加,并定期重新训练模型。
这可以通过遵循标准的机器学习管道流程来实现,其中我们监控模型是否存在任何漂移,如果漂移超过某个阈值,就重新启动训练流程。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。