1小时搭建“汪汪宠物狗”公司的N种模态文档的RAG智能对话机器人

本文链接：https://blog.csdn.net/sunxingxingtf/article/details/141297988

项目名称：1小时搭建“汪汪宠物狗”公司的N种模态文档的RAG智能对话机器人

报告日期：2024年8月18日

项目负责人：“汪汪宠物狗”公司创始人“汪汪”

项目概述：

大型语言模型（‌LLM）‌在实际应用中，‌尽管功能强大且多领域适用，‌但常出现幻觉现象，‌即生成的内容包含编造成分或错误。‌为解决这一问题，‌引入了LLM-RAG框架‌。‌

LLM-RAG通过结合检索和生成技术，‌提高了信息检索的准确性和效率，‌并能生成更贴近用户需求的文本。‌其检索库可定期更新，‌确保生成的文本内容基于最新信息，‌同时增强了回复的可解释性和定制能力‌1。‌

研究表明，‌与无RAG的LLM相比，‌RAG系统在回答问题方面的可靠性显著提高。‌在没有上下文的情况下，‌LLM平均只能正确回答34.7%的问题，‌而有了RAG，‌准确率提高到了94%‌2。‌这表明LLM-RAG框架在提升LLM性能方面具有显著优势。‌

基于NVIDIA AI 的智能库NIM，能够在1小时内快速地完成搭建基于文本，网页等等N种模态文档资料的RAG增强问答系统。当前版本代码，只支持了网页，txt格式2种模态文档数据的检索增强生成。后续版本会支持语音，图像，图表，PDF等等更多N种模态文档数据的检索增强生成。希望粉丝们，宝子们多多支持哦。

技术方案与实施步骤

模型选择：

RAG检索增强生成

RAG检索增强生成（Retrieval Augmented Generation, RAG）是一种结合信息检索和语言生成的技术，旨在提高对用户查询的响应准确性和丰富性。在这一流程中，用户提出问题后，系统通过检索器从多种信息源（如维基百科和私有文档）中获取相关数据。检索到的信息被整合成增强提示，随后通过大型语言模型生成最终答案。这种方法不仅能够提供准确的答案，还能确保信息的时效性和多样性，从而提升用户体验。RAG技术在处理复杂查询和提供背景信息方面展现出了显著的优势，成为现代人工智能系统中重要的组成部分。

RAG框架如下图所示。这张图展示了检索增强生成（RAG）的工作流程，具体步骤如下：

用户提问：用户提出问题，例如“英伟达（NVIDIA）是什么时候成立的？”。

检索器：系统通过检索器访问公开可用的信息（如维基百科）和内部/私有文档（如PDF、DOC等），以获取相关数据。

向量数据库：检索到的信息被存储在向量数据库中，便于快速检索。

增强提示：系统将用户的问题与从数据库中检索到的信息结合，生成增强提示。这一提示包含了相关的上下文信息，例如“英伟达成立于1993年4月5日，由2024年首席执行官黄仁勋（Jensen Huang）创办”。

生成器（LLM）：增强提示被发送到大型语言模型（LLM），模型根据提供的上下文生成回答。

AI生成的答案：最终，系统返回生成的答案，例如“英伟达成立于1993年”。

这一流程有效结合了信息检索与生成技术，能够快速、准确地回答用户的问题，提升了用户体验。