RAG架构中用到的模型学习思考

最新推荐文章于 2025-06-05 23:15:32 发布

勤奋的知更鸟

最新推荐文章于 2025-06-05 23:15:32 发布

阅读量774

点赞数 15

文章标签：架构

本文链接：https://blog.csdn.net/superfreeman/article/details/148385719

版权

前言

RAG（Retrieval-Augmented Generation，检索增强生成）架构结合了检索和生成能力，通过引入外部知识库来提升大语言模型（LLM）的回答准确性和可靠性。以下是RAG架构中常用的模型及其总结：

一、RAG架构核心模型分类

RAG架构主要由以下三类模型组成：

Embedding模型：用于将文本转换为向量表示，支持相似度检索。
LLM模型（生成模型）：用于生成自然语言回答。
可选的Reranker模型：用于对检索结果进行排序和优化。

二、RAG架构核心模型学习

一、Embedding模型

Embedding模型是RAG架构中检索模块的核心，用于将问题和文档转换为向量表示，以便通过相似度计算找到相关文档。

1. 开源Embedding模型

模型名称	开发者/机构	特点	适用场景
BGE Embedding	智源研究院	中文优化，性能优越，支持多语言	中文文档检索、多语言场景
text-embedding-ada-002	OpenAI	OpenAI官方Embedding模型，支持多语言，性能稳定	通用文档检索、多语言场景
Sentence-BERT	德国图宾根大学	基于BERT的句子Embedding模型，适用于短文本相似度计算	短文本检索、句子相似度计算

2. 结构化数据Embedding模型

SQLNet：用于将自然语言查询转换为SQL语句，适用于数据库检索场景。
BGE-M3：智源研究院推出的多模态Embedding模型，支持文本、图像等多模态检索。

二、LLM模型（生成模型）

LLM模型是RAG架构中生成模块的核心，用于根据检索到的文档生成自然语言回答。

1. 开源LLM模型

模型名称	开发者/机构	特点	适用场景
Qwen2	阿里云	支持多语言，性能优越，适合中文场景	中文问答、生成任务
Llama 3.1	Meta	开源大模型，支持多语言，性能强大	通用问答、生成任务
Mistral	Mistral AI	开源大模型，性能高效，适合企业级应用	通用问答、生成任务

2. 商业LLM模型

GPT-4o（OpenAI）：性能强大，支持多语言，适合高精度问答和生成任务。
通义千问（阿里云）：中文优化，适合企业级中文问答场景。
文心一言（百度）：中文优化，支持多模态生成，适合中文场景。

三、Reranker模型

Reranker模型用于对检索结果进行排序和优化，提升检索的准确性和相关性。

1. 开源Reranker模型

Cross-Encoder：基于BERT的交叉编码器，通过联合编码问题和文档对来计算相似度，性能优越但计算成本较高。
MonoT5：基于T5的单编码器Reranker，通过将问题和文档拼接后输入模型来计算相似度，性能和计算成本之间取得平衡。

2. 商业Reranker服务

OpenAI的Rerank API：提供高性能的Reranker服务，适合需要高精度排序的场景。
阿里云、百度等云服务商的Reranker服务：提供定制化的Reranker解决方案，适合企业级应用。

三、RAG架构中模型的选择总结

Embedding模型选择：
- 中文场景优先选择BGE Embedding或Qwen2的Embedding模块。
- 多语言场景可选择text-embedding-ada-002或Llama 3.1的Embedding模块。
- 结构化数据检索可选择SQLNet或BGE-M3。
LLM模型选择：
- 中文场景优先选择Qwen2或通义千问。
- 多语言场景可选择Llama 3.1或GPT-4o。
- 企业级应用可考虑Mistral等开源大模型或商业云服务。
Reranker模型选择：
- 对检索精度要求高的场景可选择Cross-Encoder或商业Reranker服务。
- 对计算成本敏感的场景可选择MonoT5或开源Reranker模型。

四、各种模型的获取方式小记

1. 开源Embedding模型

BGE Embedding（智源研究院）
- 下载地址：
  - GitHub仓库：GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs
  - HuggingFace：https://huggingface.co/BAAI/bge-large-zh（中文版）
- 下载步骤：
  1. 访问GitHub仓库或HuggingFace页面。
  2. 找到模型文件（通常为.pt或.bin格式）。
  3. 使用git clone命令克隆仓库，或直接从HuggingFace下载模型文件。
  4. 将模型文件加载到Python环境中（使用transformers库）。
text-embedding-3-large（Xenova团队）
- 下载地址：
  - HuggingFace：https://huggingface.co/Xenova/text-embedding-3-large
- 下载步骤：
  1. 访问HuggingFace页面。
  2. 使用HuggingFace的transformers库直接加载模型：
```
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Xenova/text-embedding-3-large")
model = AutoModel.from_pretrained("Xenova/text-embedding-3-large")
```

2. 开源LLM模型

Qwen2（阿里云）

下载地址：
- ModelScope平台：魔搭社区（搜索Qwen2）
- HuggingFace：https://huggingface.co/Qwen

下载步骤：

访问ModelScope或HuggingFace页面。
找到Qwen2模型并下载。

使用transformers库加载模型：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-7B-Instruct", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-7B-Instruct", trust_remote_code=True)

Llama 3.1（Meta）
- 下载地址：
  - Meta官方GitHub仓库：GitHub - meta-llama/llama: Inference code for Llama models（需申请许可）
  - HuggingFace（部分版本）：https://huggingface.co/meta-llama
- 下载步骤：
  1. 访问Meta官方GitHub仓库，按照指引申请模型许可。
  2. 获得许可后，下载模型文件。
  3. 使用transformers库加载模型（需注意许可协议）。

3.Reranker模型下载总结

BAAI/bge-reranker系列
- 模型介绍：由北京智源人工智能研究院（BAAI）推出，包括bge-reranker-base、bge-reranker-large等版本，支持中文和英文，性能优越。
- 下载地址：
  - Hugging Face：
    - bge-reranker-base：https://huggingface.co/BAAI/bge-reranker-base
    - bge-reranker-large：https://huggingface.co/BAAI/bge-reranker-large
  - 魔搭社区（ModelScope）：可通过modelscope库下载

2.Cross-Encoder类模型

模型介绍：基于Transformer的交叉编码器模型，能够针对查询和文档对输出相似度分数，适用于精确重排序。
下载地址：
- Hugging Face：搜索cross-encoder或相关模型名称，例如cross-encoder/ms-marco-MiniLM-L-6-v2。

3.其他开源Reranker模型

模型介绍：如MonoT5、ColBERT等，可根据具体需求选择。
下载地址：
- Hugging Face：搜索相关模型名称。
- GitHub：搜索开源项目，例如通过git clone命令下载。

4.其他注意事项

模型许可证：下载和使用模型时，请务必查看模型的许可证协议（如Apache 2.0、MIT等），确保合规使用。
模型选择：根据具体需求选择合适的Reranker模型，例如：
- 对于需要高精度的场景，可选择性能更强的模型（如bge-reranker-large）。
- 对于中文场景，推荐使用bge-reranker系列模型。

五、本地化部署与集成方法总结

开源模型本地化部署：
- 下载模型文件后，使用transformers库加载到Python环境中。
- 结合向量数据库（如FAISS、Milvus）实现RAG架构的检索和生成功能。
商业模型调用：
- 通过API接口调用商业模型，无需本地部署。
- 注意API调用的频率限制和费用计算。
模型优化与调优：
- 对开源模型进行微调，以适应特定业务场景。
- 使用企业自有数据对模型进行进一步训练，提高模型的准确性和性能。

六、具体获取模型实战举例

安装必要的库
- 推荐安装transformers库，用于加载和使用Hugging Face上的模型：
```
pip install transformers
```
- 对于bge-reranker模型，还可安装FlagEmbedding库：
```
pip install -U FlagEmbedding
```

下载模型方法示例

通过Hugging Face下载：

from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "BAAI/bge-reranker-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

通过ModelScope下载（如bge-reranker模型）：

from modelscope import snapshot_download
model_dir = snapshot_download("BAAI/bge-reranker-large")

使用FlagEmbedding库：

from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-large', use_fp16=True)
query = "what is panda?"
passages = [
"hi",
"The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."
]
scores = reranker.compute_score([[query, passage] for passage in passages])
print(scores)

使用transformers库:

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "BAAI/bge-reranker-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
model.eval()
pairs = [
["what is panda?", "hi"],
["what is panda?", "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."]
]
with torch.no_grad():
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)