知识库的概念
大语言模型的训练数据一般基于公开的数据,它的训练数据有多个互联网文本语料库,覆盖线上书籍、新闻、文章、科学论文、维基百科、社交媒体帖子等等海量的文本。大语言模型每一次训练需要消耗大量算力,这意味着模型的知识一般不会包含私有领域的知识,同时在公开知识领域存在一定的滞后性。
举个例子,目前流行的企业客服智能机器人,它能够回答企业销售的产品问题。这就是知识库的应用。因为如果没有知识库,大语言模型能够回答企业销售的产品问题吗?显然是不能的,因为这些资料都是企业私有的,而大语言模型并没有提前学习这部分私有知识。
为了解决这一问题,目前通用的方案是采用 RAG
(检索增强生成)技术,使用用户问题来匹配最相关的外部数据,将检索到的相关内容召回后作为模型提示词的上下文来重新组织回复。
我使用ChatGPT-4
虚拟创建了HomeSmartX1产品说明书
的产品文档,HomeSmartX1产品说明书.txt 下载地址:https://personel-zhouxinle888-a66353926f9185cff28f2bd374a5c3a9dd89d5206.gitlab.io/dify/dify-16.html。这个文档是公开互联网上没有的资料,刚好可以作为我们的私有知识库。
RAG流程
知识库处理
分段和清洗
索引
检索设置
Rerank
模型
Xinference
本地部署rerank
模型。
``
Dify
配置rerank
模型。
检查分段质量
文档分段对于知识库应用的问答效果有明显影响,在将知识库与应用关联之前,建议人工检查分段质量。
检查分段质量时,一般需要关注以下几种情况:
•过短的文本分段,导致语义缺失
•过长的文本分段,导致语义噪音影响匹配准确性
•明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容
召回测试
创建客服应用
基于工作流的聊天客服应用:
召回模式
当用户构建知识库问答类的AI
应用时,如果在应用内关联了多个数据集,Dify
在检索时支持两种召回模式:N选1
召回模式和多路召回模式。
•N选1召回模式
适合数据集区分度大且数据集数量偏少的应用。
根据用户意图和数据集描述,由 Agent
自主判断选择最匹配的单个数据集来查询相关文本。
•多路召回模式
当创建的知识库问答应用关联了多个数据集时,我们更推荐将召回模式配置为多路召回。
提示词Prompt
演示
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。