从0到1打造一个知识库 AI Agent(智能体)

需求分析

接下来,我们开始第一部分的内容:需求分析。

哪些功能?

首先我们了解一下什么是知识库?

知识库就是我们的第二大脑,它是一个集中存放知识、查阅知识、利用知识的地方,它应该具备如下几个特点:

  • 保存方便 - 可以用最少的步骤、最短的时间进行保存。
  • 集中存放 - 不再有"这个保存在哪里了?"的困扰,所有内容都在一个地方。
  • 查找方便 - 不需要记住准确的文件名或位置,通过关键词或问题就能找到相关内容。
  • 信息关联 - 不同的信息之间可以建立联系,形成知识网络,帮助你发现新的见解。
  • 多平台访问 - 无论你在手机、电脑还是平板上,都能方便地存取知识。

平台如何选型?

接下来,我们对知识库智能体平台进行选型。

  • 扣子智能体平台:目前对于大多数非技术人员来说,智能体平台优先选择的就是扣子,首先在扣子内部使用无任何费用,其次扣子中集成的插件生态也很多、且免费,再者可以发布到很多的平台,例如小程序、飞书、自己的系统等等。
  • 飞书云文档:内容我们可以存储到飞书云文档、多维表格中,扣子智能体平台可以非常方便的与其对接。
  • 飞书AI知识回答:查询端我们可以选择飞书知识问答,飞书新上线的问答平台,集成了 DeepSeek R1,并且它可以把飞书云文档当成知识库,对里面的内容直接进行检索、利用,生成新的内容。
  • 微信助理和扣子:至于我们将内容发给智能体的触点,一个可以通过微信助理发给智能体,另外可以直接在扣子智能体里使用。

很多朋友可能会说,有很多的笔记软件平台啊,为啥不用啊,可以用的啊,每个人的选择不一样。

这里我们是用大厂的产品自建,安全、免费、功能多,后期扩展性强。

当然,我们是可以混合使用的,最主要的是我们可以随时随地的、快速、方便的收集我们的内容。

存储内容有哪些?

接下来,我们思考一下,日常我们都会有哪些内容会放到知识库中。

首先文档类的、写作类,直接在飞书云文档里上传或者写作就好了。

其次看到好的文章需要收藏起来。

再者就是好的视频,我们希望把视频文案保存下来。

还有我还会收藏一些优质的站点。

最后就是我们突然有灵感的时候,需要赶紧记录起来。

… …

以上大多数内容收藏的场景,在手机端都可以借助微信助手作为保存内容的快捷入口。

例如将一个文章链接、视频链接发送给微信助手,微信助手自动调用后端扣子智能体;

智能体提取文章概要、关键词等,提取视频的文案、文案分析等,并且可以自动分类,最后保存到飞书文档中。

标签目录如何划分?

接下来,我们聊一下在初期构建个人知识库的时候,可能耗时最多的地方,目录和标签。

例如我的目录如何定义最好,内容标签如何定义最好,这个貌似是很多人在搭建个人知识库的时候比较纠结的地方。

如果你对规划知识库的目录没有头绪,我们可以借用《打造第二大脑》书中的PARA分类法。

P - 项目(Projects)

  • 这些是你当前正在进行的、有明确完成期限的工作
  • 比如:准备周五的演讲、装修房子、在做的项目
  • 特点:有具体截止日期,有明确的成功标准

A - 领域(Areas)

  • 你需要长期关注和维护的生活或工作责任
  • 比如:健康管理、职业发展、技能提升、自媒体学习
  • 特点:没有具体截止日期,需要持续关注和维护

R - 资源(Resources)

  • 你感兴趣或认为将来可能有用的信息和材料
  • 比如:烹饪食谱、编程知识、旅行目的地信息
  • 特点:按主题收集,以备将来查阅或使用

A - 存档(Archives)

  • 不再活跃但可能需要保留的信息
  • 比如:已完成的项目、过去的记录、不再关注的兴趣
  • 特点:已完成或不再相关,但值得保存以备查询

PARA 分类法的核心理念是:让信息组织服务于行动,通过这种分类方式,你可以:

  • 快速找到当前需要的信息(项目)
  • 不会忘记长期重要的事情(领域)
  • 积累对你有价值的知识(资源)
  • 保留历史记录但不让它们干扰当前工作(存档)

如下是我的飞书云文档的文件夹划分,我也是按照 PARA 分类法,其他云盘等都是按照这个分类的。

但是我增加了 Inbox 文件夹,用于放置待整理的内容。

增加了 Insight 文件夹,用于放置我的日常瞬间产生的灵感或者思考,当然有很多其他的 app 可以是专门做这个事情的,如果有最好定时同步到这里,打造一个集中存储的知识库还是很有必要的。

Qiushui、AI、Develop 三个目录我日常用的比较频繁,所以也列在了一级目录,按照 PARA 分类法,这三个目录实在 Area 目录下的。

实际执行的时候,要抓住本质,灵活应用。

img

如何快速查找和利用?

在以往很多的扣子知识库智能体教程中,对于存储的知识,只能用来智能体查找,即利用扣子智能平台自带的知识库,但当数据量逐步大了以后,其实是不太适应的,并且二次利用创作起来也有点麻烦。

今天我们推荐的另外一种方式,就是飞书知识问答它不仅可以帮我检索存在飞书云文档里的内容,还可以通过提示词直接创作。

img

可以在文末点击“阅读原文”,体验。

业务架构图

经过上面我们的分析,可以梳理出这个知识库智能体的业务架构图。

通过微信助理和扣子发布出来的智能体,可以快速保存一段思考、一篇好的文章、一个爆款视频等。

扣子开发的知识库智能体,作为内容处理的核心

img

智能体搭建

这次知识库智能体搭建的时候,我们在上个例子中新增两个工作流,分别是保存思考内容和保存爆款短视频。

当然每个人的情况不一样,后期大家根据自己的情况来延展,例如海外的链接读取、本地文件的读取、网址收藏等等。

这样可以把自己收集信息的每一个途径都可以做成一个工作流,达到快速收藏内容、分析内容的过程。

下图是我刚增加的两个工作流,在这里说一个小插曲,有些朋友以前问过,为啥我做的智能体运行的时候,不自动调用工作流呢?

除了你选的大模型的能力太弱以外,一般是你在这里的工作流说明说的过于简单,大模型不知道这个工作流是干啥的,自然就不会去主动调用了。

下面的一些实操截图只放置了核心的节点,如果需要看完整的,等待视频推出后,我会在视频中,将每个节点都演示一遍。

img

保存思考内容

工作流可以在保存文章的工作流上进行修改,将原先读取链接内容的节点去掉。

img

大模型节点,去掉无用的标题、总结等节点,输出只需要标签。

img

飞书多维表格中对应的列如下

img

保存爆款短视频

根据某音的链接,提取文案,并分析文案,用的插件是 video2Txt。

img

大模型节点,去掉无用的标题、总结等节点,输出只需要标签。

img

飞书多维表格中对应的列如下

img

部署微信助理

为什么要用微信助理呢?因为我们在手机端浏览内容的时候,可以很容分享到微信,减少我们复制粘贴链接、文本的时间。

部署前的一些注意事项

  • 部署之前,需要安装 Python ,Docker。
  • 可以在本地电脑部署,但是部署成功后,电脑需要一直开着。
  • 建议买一台云服务器,阿里云、腾讯云都可以,一般有优惠的,100-200区间就可以,一定要购买同省份的服务器。
  • 部署过程中,有遇到的问题可以直接问 AI,让其协助你解决。
  • 最后一定要耐心、耐心、再耐心,细节很多。

如何部署具体说明

由于篇幅的缘故,这里我就不一一列出详细步骤了,大家可以根据如下两个网址的操作步骤,安装微信助理。

https://docs.dify.ai/zh-hans/learn-more/use-cases/dify-on-wechat

https://github.com/hanfangyuan4396/dify-on-wechat

连接扣子智能体的配置文件如下,“#”部分为说明,正式部署的时候需要去掉。

# coze config.json文件内容示例
{
  "coze_api_base": "https://api.coze.cn",     # coze base url
  "coze_api_key": "xxx",                      # coze api key
  "coze_bot_id": "xxx",                       # 根据url获取coze_bot_id https://www.coze.cn/space/{space_id}/bot/{bot_id}
  "channel_type": "gewechat",                 # 通道类型,当前为个人微信
  "model": "coze",                            # 模型名称,当前对应coze平台
  "single_chat_prefix": [""],                 # 私聊时文本需要包含该前缀才能触发机器人回复
  "single_chat_reply_prefix": "",             # 私聊时自动回复的前缀,用于区分真人
  "group_chat_prefix": ["@bot"],              # 群聊时包含该前缀则会触发机器人回复
  "group_name_white_list": ["ALL_GROUP"]      # 机器人回复的群名称列表
}

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值