AI | 大模型入门:RAG​数据库

大模型的知识主要是在预训练阶段学习的,更新大模型的固化知识是非常困难的,需要通过特定数据集的微调再训练实现。通过RAG实现私有知识库与私有化部署大模型相融合,就变得容易得多,但需要根据私有知识库的数据结构特点进行选型。”

img

相信很多政企单位都已尝鲜部署了私有大模型问答系统,而且基本思路是一致的,即本地部署大模型如DeepSeek 32B或70B+私有知识库+前端智能问答系统。前文介绍了[RAG(检索增强生成)技术],它可以不依赖于大模型的预训练或者再训练即可实现知识私有定制化,这是私有化大模型部署进行内容定制化开发的成本最低效果最好的方式。本文将陈述RAG的常用实现方式,以及他们各自的优缺点及使用场景。
为什么需要RAGRAG是基于外挂知识库建立的,具有可实时更新、确定性输出、隐私性好等特点,可以解决大模型使用过程中遇到的以下问题:一、大模型的知识更新问题大模型的知识源于预训练,将大量的知识压缩到参数之中,训练完成之后大模型的所掌握的知识也就固定不变了。然而随着时间的推移,人们在应用过程中,需要大模型不断”学习“新知识。这就需要一种便捷、廉价的方式让大模型不断”掌握“新知识。在使用RAG系统之后,可以随时更新外挂私有数据库,实现知识的实时更新。二、大模型的生成结果的不可解释性问题大模型表现出了不可思议的“意识”能力,而且出现了不可解释的“涌现”现象(当数据量和参数超过阈值,如千亿级,模型会突然具备小模型没有的能力),但其本质仍是模仿人类语言的“拼图游戏”。因此,大模型的输出的结果也可能是不可解释的灾难性的失败(幻觉):模型可能生成看似合理但错误的答案(如“9.11比9.9大”),因为其本质是基于概率的“随机鹦鹉”;用户误以为模型“有意识”,实则是数据模式的“概率组合”。正是因为大模型天然的这种不可解释性问题,在非常严肃的应用场景下,例如"我站在二楼楼顶,跳下去会不会失去生命”,我们需要一种手段(RAG)确保大模型输出的答案具有确定性,以增强用户对大模型的”信心“,以防止灾难性情景的发生。三、大模型的数据安全问题私有化训练专用大模型资金成本和时间成本都很高,然而公用大模型的所包含的所有数据,通过一定的提示词引导,均可输出其掌握的信息,不具备隐私保护功能。在使用RAG系统之后,由于模型组织答案所用到的知识来源于预先提供的知识库信息,利用个人私有数据不仅可以使得模型的答案具有个性化,同时能让整个系统的数据更加安全,防止隐私数据被诱导泄露。RAG本质上是一种大模型“外挂数据库”,为提升数据的检索速度和数据命中率,不同的数据类型需要不同的组织形式,需要不同类型的数据库进行存储。实现RAG的数据库主要有:向量数据库(最常用)、图数据库、知识图谱(一般基于图数据库)、混合架构数据库(一般基于搜索引擎如Elasticsearch)等。下面一一介绍:

向量数据库

向量数据库代表产品:LanceDB、Chroma、Pinecone。

*适用数据类型:*

  1. 非结构化数据:文本、图像、音频等,并根据语义相似性搜索数据。向量模型用于为数据库中存储的数据生成向量嵌入。根据数据类型、任务和向量模型的不同,数据需要被切分成更小的块。例如,如果要存储文本数据,则可以将数据切分成句子或段落。

  2. 高维语义特征数据:如语义相似度匹配的问答对、商品描述向量等。

典型应用场景:

  1. 实时语义搜索(电商商品推荐、聊天记录分析)。

  2. 多模态内容匹配(图片搜索、跨语言文档检索)。

  3. 大模型上下文增强(RAG中的Top-K片段召回)。

核心优势:

  1. 高效相似性检索:支持ANN算法(如HNSW、IVF),实现毫秒级响应。

  2. 多模态兼容:统一处理文本、图像、音视频的向量表示。

  3. 横向扩展:支持百亿级向量分布式存储,如Milvus的自动分片机制。

图数据库

图数据库以节点和边的形式存储数据。它适用于存储结构化数据,如表格、文档等,并使用数据之间的关系搜索数据。例如,如果你正在存储有关人员的数据,可以为每个人创建节点,并在彼此相识的人之间创建边。当对图数据库进行查询时,图数据库返回与查询节点相连的节点。这种使用知识图谱的检索对于完成像问题回答这样的任务非常有用,其中答案是人或实体。

图数据库代表产品:Neo4j、Nebula Graph、HugeGraph

适用数据类型

  1. 结构化关系数据:实体(如人物、产品)及其关联关系(如“推出”“属于”)。

  2. 知识网络:企业组织架构、产品技术图谱。

典型应用场景

  1. 复杂逻辑推理(如“饺子导演的电影有哪些”)。

  2. 跨实体关系查询(如供应链上下游分析)。

核心优势:

多跳推理:通过图遍历实现复杂关系查询(如3度人脉挖掘)。

动态权重:支持边属性动态调整(如社交网络影响力计算)。

可视化分析:直观展示实体关系网络。

知识图谱

*知识图谱通常与图数据库结合存储,并集成向量检索模。知识图谱与图数据库在RAG中形成“语义层+存储层”的协同架构:*

知识图谱解决“为什么”(推理依据)的问题,例如法律咨询中引用法规条款的合法性验证;

图数据库解决“是什么”(数据存储)的问题,例如实时查询社交网络中的用户关系链。

两者结合可覆盖从数据管理到知识推理的全链路需求,例如油气行业RAG系统常采用Neo4j(图数据库) + 领域知识图谱 + 向量数据库的混合架构,兼顾精准检索与语义理解。

知识图谱代表产品:AWS Neptune(全托管知识图谱服务)、Stardog(企业级语义推理引擎)、Apache Jena(开源RDF框架)。

适用数据类型

混合型数据:结构化实体属性(如电影票房)+非结构化文本描述。

多源异构数据:跨数据库、API和文档整合的知识体系。

典型应用场景

  1. 动态知识扩展(如实时更新行业标准)。

  2. 增强答案可解释性(提供推理路径)。

核心优势:

语义理解:通过本体建模实现上下文精准捕捉。

可解释性:答案生成附带证据链(如法规条款引用)。

动态更新:支持增量知识注入与版本管理。

混合架构数据库

在RAG系统中,可以从通用搜索引擎(如百度、Bing等)或内部搜索引擎(如Elasticsearch、Solr等)中检索数据。在RAG架构的检索阶段,使用问题/任务详细信息查询搜索引擎,搜索引擎返回最相关的文档。搜索引擎对于从网络中检索数据和使用关键字搜索数据非常有用。**可以将来自搜索引擎的数据与来自其他数据库(如向量存储库、图数据库等)的数据结合起来,以提高输出的质量,因此可以称之为混合架构数据库。****混合架构数据库代表产品:**Elasticsearch + Neo4j(全文检索+图推理)。Milvus + TigerGraph(向量+图联合查询)。Azure Cognitive Search(内置多模态混合检索)。**适用数据类型:**混合数据:非结构化文本+结构化关系数据。动态场景:需同时处理模糊语义与精确规则。**核心优势:**灵活检索策略:向量相似度与图遍历联合优化。成本平衡:热数据向量化+冷数据图谱化分级存储。准确性提升:通过多源结果交叉验证减少幻觉。**典型应用场景:**企业级智能客服(政策查询+流程审批推理)。科研文献分析(论文相似性检索+作者合作网络)。金融投研(行情数据匹配+产业链关联分析。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值