手工微调embedding模型，让RAG应用检索能力更强

最新推荐文章于 2025-05-09 15:06:52 发布

知世不是芝士

最新推荐文章于 2025-05-09 15:06:52 发布

阅读量4.4k

点赞数 16

文章标签： embedding 大模型微调人工智能 ai大模型大语言模型 AGI RAG

本文链接：https://blog.csdn.net/python122_/article/details/139919074

版权

BAAI/bge-small-en

目前HuggingFace的MTEB(海量文本Embedding基准)排行榜上排名第一的Embedding模型是big-large-en，它由北京人工智能研究院(BAAI，智源)开发。它是一种预训练的transformer模型，可用于各种自然语言处理任务，如文本分类、问答、文本生成等。该模型在海量文本和代码数据集上进行训练，并在海量文本Embedding基准(MTEB)上进行了微调。

在本文中，我们将使用 big-large-en的缩小版big-small-en，这是一个384维的小规模模型（OpenAI是1500+维），具有竞争力的性能，非常适合在Google Colab中运行。大家也可以选择中文版的bge-base-zh-v1.5，只有0.1G。当然你的硬件环境允许，也可以使用1.3G的bge-large-zh-v1.5等embedding模型。

微调Embedding模型与微调LLM

与LLM（大语言模型）微调相比，big-small-en微调的实现有一些不一样，下面简单说一下异同点：

相似点

两种类型的微调都遵循相同的方法，即生成用于训练和评估的数据集，微调模型，最后评估基本模型和微调模型之间的性能。
使用LLM自动生成训练和评估数据集。

不同点

数据集内容在LLM微调和Embedding模型微调之间有所不同。用于LLM微调的数据集包含LLM生成的问题。在微调过程中，包括问题、答案、系统prompt等在内的一系列数据将以JSON行( jsonl)文件的形式传递给要进行微调的模型。

不同的是，用于Embedding模型微调的数据集包含以下三组:

queries：node_id映射和LLM生成的问题的集合。
corpus：node_id映射和相应节点中的文本的集合。
relevant_docs：查询的node_id和语料库 node_id之间的交叉引用映射的集合。给定一个查询，它告诉Embedding模型要查找哪个文本节点/语料库。

由于我们使用开源Embedding模型bge-small-en ，微调的前提就是要先把它下载到您的本地环境。以Google Colab为例，经过微调的模型将被下载到笔记本的根目录中。
评估方法在微调Embedding模型和微调LLM之间有所不同，我们可以使用Ragas框架来衡量精准度和答案相关性。然而，当使用Embedding模型微调时，我们无法测量答案的正确性，因为我们只能为我们的问题检索相关节点。相反，我们使用一个称为“命中率”的简单度量，这意味着对于每个(query, relevant_doc)对，我们用查询检索top-k文档，如果结果包含relevant_doc，则它被认为是“命中”的。该指标可用于专有Embeddings，如OpenAI的Embedding模型和开源Embedding模型。对于开源Embedding模型，我们还可以使用来自sentence_transformers的InformationRetrievalEvaluator进行评估，因为它提供了一套更全面的指标。

微调Embedding模型似乎涉及到很多问题。幸运的是，LlamaIndex（我个人感觉LlamaIndex目前的发展可能会在RAG方面打败LangChain）在最近的0.8.21版本中引入以下关键类/函数，使得微调Embedding模型变得超级简单: