1.RAG（检索增强生成）

最新推荐文章于 2025-05-27 18:19:13 发布

cookieswolf

最新推荐文章于 2025-05-27 18:19:13 发布

阅读量247

点赞数

文章标签： AI编程

原文链接：https://github.com/langchain-ai/langchain/blob/master/cookbook/Semi_structured_multi_modal_RAG_LLaMA2.ipynb

版权

文章介绍了如何利用大语言模型LLM增强功能，通过检索和生成技术，结合文本和图像的多模态信息。方法包括索引知识库、使用嵌入机处理文本片段、多模态嵌入搜索和多模态LLM生成文本或图像摘要，以提供更丰富的答案合成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本质
- 将用户输入的信息补充到大语言模型LLM中。LLM 可以使用这些信息来增强其生成的回答或响应。
- 先检索，后生成
传统RAG
- 实现过程
  - 对知识库进行索引。使用加载器获取知识并将其转换为单个文档，然后使用分割器将其转换为小块或片段。
  - 将这些片段传递给嵌入机，嵌入机将它们转换为可以用于语义搜索的向量。并将这些嵌入向量与其文本片段一起保存在向量数据库中。
  - 用户提出问题并将问题通过相同的嵌入机发送到向量数据库中，检索并确定最匹配的片段。
  - 将最匹配的片段、自定义的system prompt和用户提出的问题一起格式化，交由LLM处理，最终得到针对具体语境的答案。
- 缺点
  - 许多文档包含多种内容类型，不仅仅是文本，还包括表格和图像。
  - 文本拆分可能会破坏表格，从而损坏检索中的数据
  - 嵌入表可能会给语义相似性搜索带来挑战
  - 图像中捕获的信息通常会丢失
多模态RAG
- Option 1:
  - 使用多模态嵌入（如 CLIP）嵌入图像和文本
  - 使用相似性搜索检索两者
  - 将原始图像和文本块传递给多模态 LLM 以进行答案合成
- Option 2:
  - 使用多模态 LLM（例如 GPT4-V, LLaVA, or FUYU-8b）从图像生成文本摘要
  - 嵌入和检索文本
  - 将文本块传递给 LLM 以进行答案合成
- Option 3:
  - 使用多模态 LLM（例如 GPT4-V, LLaVA, or FUYU-8b）从图像生成文本摘要
  - 嵌入和检索引用原始图像的图像摘要
  - 将原始图像和文本块传递给多模态 LLM 以进行答案合成

博客等级

码龄23年

0
原创

0
点赞

0
收藏

1
粉丝

关注

私信

热门文章

1.RAG（检索增强生成） 247

最新评论

1.RAG（检索增强生成）
CSDN-Ada助手: 恭喜您开始博客创作！标题“1.RAG（检索增强生成）”很吸引人，让我对您的博客充满期待。希望您能在博客中详细介绍RAG的原理和应用，让读者更好地理解这一概念。另外，您可以考虑提供一些实例或案例，以帮助读者更好地理解RAG在实际应用中的效果。期待您接下来更多精彩的博客文章！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

SQL 查询中常见关键字的正确顺序以及使用规则 664

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。