RAG架构中用到的模型学习思考

前言

RAG(Retrieval-Augmented Generation,检索增强生成)架构结合了检索和生成能力,通过引入外部知识库来提升大语言模型(LLM)的回答准确性和可靠性。以下是RAG架构中常用的模型及其总结:


一、RAG架构核心模型分类

RAG架构主要由以下三类模型组成:

  1. Embedding模型:用于将文本转换为向量表示,支持相似度检索。
  2. LLM模型(生成模型):用于生成自然语言回答。
  3. 可选的Reranker模型:用于对检索结果进行排序和优化。

二、RAG架构核心模型学习

一、Embedding模型

Embedding模型是RAG架构中检索模块的核心,用于将问题和文档转换为向量表示,以便通过相似度计算找到相关文档。

1. 开源Embedding模型

模型名称开发者/机构特点适用场景
BGE Embedding智源研究院中文优化,性能优越,支持多语言中文文档检索、多语言场景
text-embedding-ada-002OpenAIOpenAI官方Embedding模型,支持多语言,性能稳定通用文档检索、多语言场景
Sentence-BERT德国图宾根大学基于BERT的句子Embedding模型,适用于短文本相似度计算短文本检索、句子相似度计算

2. 结构化数据Embedding模型

  • SQLNet:用于将自然语言查询转换为SQL语句,适用于数据库检索场景。
  • BGE-M3:智源研究院推出的多模态Embedding模型,支持文本、图像等多模态检索。

二、LLM模型(生成模型)

LLM模型是RAG架构中生成模块的核心,用于根据检索到的文档生成自然语言回答。

1. 开源LLM模型

模型名称开发者/机构特点适用场景
Qwen2阿里云支持多语言,性能优越,适合中文场景中文问答、生成任务
Llama 3.1Meta开源大模型,支持多语言,性能强大通用问答、生成任务
MistralMistral AI开源大模型,性能高效,适合企业级应用通用问答、生成任务

2. 商业LLM模型

  • GPT-4o(OpenAI):性能强大,支持多语言,适合高精度问答和生成任务。
  • 通义千问(阿里云):中文优化,适合企业级中文问答场景。
  • 文心一言(百度):中文优化,支持多模态生成,适合中文场景。

三、Reranker模型

Reranker模型用于对检索结果进行排序和优化,提升检索的准确性和相关性。

1. 开源Reranker模型

  • Cross-Encoder:基于BERT的交叉编码器,通过联合编码问题和文档对来计算相似度,性能优越但计算成本较高。
  • MonoT5:基于T5的单编码器Reranker,通过将问题和文档拼接后输入模型来计算相似度,性能和计算成本之间取得平衡。

2. 商业Reranker服务

  • OpenAI的Rerank API:提供高性能的Reranker服务,适合需要高精度排序的场景。
  • 阿里云、百度等云服务商的Reranker服务:提供定制化的Reranker解决方案,适合企业级应用。

三、RAG架构中模型的选择总结

  1. Embedding模型选择

    • 中文场景优先选择BGE EmbeddingQwen2的Embedding模块
    • 多语言场景可选择text-embedding-ada-002Llama 3.1的Embedding模块
    • 结构化数据检索可选择SQLNetBGE-M3
  2. LLM模型选择

    • 中文场景优先选择Qwen2通义千问
    • 多语言场景可选择Llama 3.1GPT-4o
    • 企业级应用可考虑Mistral等开源大模型或商业云服务。
  3. Reranker模型选择

    • 对检索精度要求高的场景可选择Cross-Encoder或商业Reranker服务。
    • 对计算成本敏感的场景可选择MonoT5或开源Reranker模型。

四、各种模型的获取方式小记

1. 开源Embedding模型

  • BGE Embedding(智源研究院)
  • text-embedding-3-large(Xenova团队)
    • 下载地址
    • 下载步骤
      1. 访问HuggingFace页面。
      2. 使用HuggingFace的transformers库直接加载模型:
        from transformers import AutoTokenizer, AutoModel
        tokenizer = AutoTokenizer.from_pretrained("Xenova/text-embedding-3-large")
        model = AutoModel.from_pretrained("Xenova/text-embedding-3-large")

2. 开源LLM模型

  • Qwen2(阿里云)
    • 下载地址
    • 下载步骤
      1. 访问ModelScope或HuggingFace页面。
      2. 找到Qwen2模型并下载。
      3. 使用transformers库加载模型:
        from transformers import AutoTokenizer, AutoModelForCausalLM
        tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-7B-Instruct", trust_remote_code=True)
        model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-7B-Instruct", trust_remote_code=True)
  • Llama 3.1(Meta)

3.Reranker模型下载总结

  1. BAAI/bge-reranker系列

    2.Cross-Encoder类模型

  • 模型介绍:基于Transformer的交叉编码器模型,能够针对查询和文档对输出相似度分数,适用于精确重排序。
  • 下载地址
    • Hugging Face:搜索cross-encoder或相关模型名称,例如cross-encoder/ms-marco-MiniLM-L-6-v2

     3.其他开源Reranker模型

  • 模型介绍:如MonoT5ColBERT等,可根据具体需求选择。
  • 下载地址
    • Hugging Face:搜索相关模型名称。
    • GitHub:搜索开源项目,例如通过git clone命令下载。

4.其他注意事项

  1. 模型许可证:下载和使用模型时,请务必查看模型的许可证协议(如Apache 2.0、MIT等),确保合规使用。
  2. 模型选择:根据具体需求选择合适的Reranker模型,例如:
    • 对于需要高精度的场景,可选择性能更强的模型(如bge-reranker-large)。
    • 对于中文场景,推荐使用bge-reranker系列模型。

五、本地化部署与集成方法总结

  1. 开源模型本地化部署
    • 下载模型文件后,使用transformers库加载到Python环境中。
    • 结合向量数据库(如FAISS、Milvus)实现RAG架构的检索和生成功能。
  2. 商业模型调用
    • 通过API接口调用商业模型,无需本地部署。
    • 注意API调用的频率限制和费用计算。
  3. 模型优化与调优
    • 对开源模型进行微调,以适应特定业务场景。
    • 使用企业自有数据对模型进行进一步训练,提高模型的准确性和性能。

六、具体获取模型实战举例

  1. 安装必要的库
    • 推荐安装transformers库,用于加载和使用Hugging Face上的模型:
      pip install transformers
    • 对于bge-reranker模型,还可安装FlagEmbedding库:
      pip install -U FlagEmbedding
  2. 下载模型方法示例
    • 通过Hugging Face下载
      from transformers import AutoModelForSequenceClassification, AutoTokenizer
      model_name = "BAAI/bge-reranker-large"
      tokenizer = AutoTokenizer.from_pretrained(model_name)
      model = AutoModelForSequenceClassification.from_pretrained(model_name)
    • 通过ModelScope下载(如bge-reranker模型):
      from modelscope import snapshot_download
      model_dir = snapshot_download("BAAI/bge-reranker-large")
  3. 使用FlagEmbedding
    from FlagEmbedding import FlagReranker
    reranker = FlagReranker('BAAI/bge-reranker-large', use_fp16=True)
    query = "what is panda?"
    passages = [
    "hi",
    "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."
    ]
    scores = reranker.compute_score([[query, passage] for passage in passages])
    print(scores)
    
  4. 使用transformers库:
    import torch
    from transformers import AutoModelForSequenceClassification, AutoTokenizer
    model_name = "BAAI/bge-reranker-large"
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForSequenceClassification.from_pretrained(model_name)
    model.eval()
    pairs = [
    ["what is panda?", "hi"],
    ["what is panda?", "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."]
    ]
    with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)
    

七、总结

RAG架构中用到的模型主要包括Embedding模型、LLM模型和可选的Reranker模型。我们在选择模型时,应根据自身需求、场景特点和计算资源进行综合考虑。通过合理选择和集成模型,可以构建出高效、准确的RAG系统,提升知识检索和生成的效率和质量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

勤奋的知更鸟

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值