PDF解析+RAG,手把手教你在Coze搭建个人知识库!

目录

搭建个人知识库是一个不断探索和优化的过程。今天,合小研会逐步演示如何在Coze扣子平台搭建个人知识库!

Step 1 使用TextIn文档解析,实现PDF批量转MD

Step 2 在Coze平台搭建知识库

Step 3 创建属于你的问答Bot


在这个信息爆炸的时代,搭建个人知识库就像是拥有了一个超级智能的“外脑”。

它不仅能帮你储存知识,还能在你需要的时候迅速地调取信息,提高知识的使用效率。

此外,个人知识库还能够帮助我们系统化整理知识、融会贯通,将零散的信息整合成有条理的知识体系,省去人工梳理消耗的时间精力。它可以充当优秀“智库”的角色——只要你提出准确的问题,它就能从大量文件中提取相关信息,给出详尽的答复。

在RAG进入视野之后,不少有技术能力的尝鲜者率先搭建了个人知识库。随着GPTs这一类“人工智能应用商店”的出现,更多不会敲代码的用户也能迈过技术门槛,拥有自己的知识库。互联网上涌现出很多实用、有趣的案例:

技术博主的内容管理系统:技术博主通过建立知识库,将写作素材、研究资料和学习笔记整合在一起,提高写作效率,并且通过分享知识库内容建立个人品牌。

学术研究知识库:研究生和学者通过搭建知识库,整合研究资料、实验数据和论文草稿,使研究工作更加有序。

个人健康知识库:有人利用个人知识库整理了所有的健身知识,包括营养学、运动计划和睡眠质量等,用AI为自己制定健康管理计划,拥有一位了解自己方方面面的专属健康顾问。

搭建个人知识库是一个不断探索和优化的过程。今天,合小研会逐步演示如何在Coze扣子平台搭建个人知识库!

Step 1 使用TextIn文档解析,实现PDF批量转MD

搭建个人知识库的第一步,是知识数据准备与清理。要将“人类可读”数据转化为“机器可读”,我们需要优质的文档解析工具,准确识别PDF等编码格式文件中的文字、标题、图表,并以信息损失最小的方式传递给大模型。

工具指路:https://www.textin.com/market/detail/pdf_to_markdown

首先,作为暂时没有API需求的用户,我们直接点击在线使用,进入TextIn工作台。

Textin工作台

在工作台界面,上传所有预备导入知识库的文件。我们以搭建LLM前沿研究知识库为例,首批先上传了23份LLM相关研究论文。

在解析快速完成后,点击左下角【多选】➡️【本页全选】,再点击右下角【批量导出】,就能获得转化为Markdown格式的所有文件。

Markdown格式文件

Step 2 在Coze平台搭建知识库

登陆Coze扣子平台后,点击路径:【个人空间】➡️【知识库】➡️【创建知识库】,自行选择文件格式与上传渠道。 添加知识库名称与描述后,可以让Coze自动生成并挑选你满意的知识库图标~

确认基本信息

确定基本信息后,上传我们在Step1批量解析的md文件。

自定义设置

点击下一步,来到【分段设置】。

在自定义模式中,Coze支持自行设定分段标识符(换行、中文句号、英文句号、叹号及问号等)与分段最大长度,并可以勾选文本预处理规则。

分段设置

进入下一步,待服务器数据处理完成后,知识库就创建成功了。

Step 3 创建属于你的问答Bot

选择【创建Bot】,为你的Bot起名并填写功能介绍。和创建知识库时一样,在这一步我们可以为Bot生成一个合适的图标。

创建Bot

*图标由Coze生成。 点击确认后,我们进入编排页面,在【知识】一栏,选择添加知识库。

添加我们先前建立的知识库。

点选【自动调用】,我们可以定义知识库的召回与回复设置。 如有需要,也可在上方另行调整模型设置。

完成简单编排后,在【预览与调试】窗口,我们可以进行测试。 例如图中,输入问题:“如何通过调整prompt来提高模型表现?”新创建的LLM知识问答Bot调用知识库中的论文信息,给出了高质量回答。

💡小贴士: 部分Markdown文件中可能包含注释格式,用以保存图片解析信息等元素,而Coze平台对包含注释的md文件存在不兼容的现象,在上传过程中,你可能会看到如下报错⬇️

我们为大家提供一个脚本工具,用于便捷删除md文件中的注释,支持Linux、Windows、Mac系统,有使用需求的朋友可以下载。

链接:https://pan.quark.cn/s/5295a7e187ed

以上就是本期Coze知识库搭建流程

欢迎和我们分享你的实践和妙用~随时与我们技术团队小伙伴探讨你的场景需求!

评论 29
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值