你想过和自己聊天吗?
你想通过对话的方式读一本书,或看一篇几万字的论文吗?
如果你有以下需求之一:
1. 想将自己积累了很久的笔记整合起来,方便自己分析。
2. 想建立自己的素材库。
3. 你(或你的孩子)想通过对话聊天的方式学习新知识。
那么建议你跟着这篇教程,赶紧搭建一套个人知识库,来快速检自己想要的信息。
主流的个人知识库软件有 AnythingLLM、Dify、Cherry Studio、MaxKB 等。
产品 | Github 关注数 | 使用方式 | 知识库说明 | 官网地址 |
Dify | 64.7k | web | 支持 Notion、Web 站点、文件(每个文件不超过 15MB) | https://dify.ai/zh |
AnythingLLM | 35.3k | 桌面版或 web | 支持 Web 站点、文件 | https://anythingllm.com/ |
Cherry Studio | 9.5k | 桌面版 | 支持 Web 站点、文件 | https://cherry-ai.com/ |
其中 AnythingLLM 功能强大,但 Dify 和 Cherry Studio 对中国用户更友好,这里我用 AnythingLLM 为例说下如何搭建个人知识库。
AnythingLLM 演示成果
为方便理解,这里先看个很简单的演示成果。
AnythingLLM 搭建个人知识库
安装 AnythingLLM
AnythingLLM 提供了桌面版和 Docker 等几种安装方式,其中桌面版的安装简单,Docker 安装的功能会更丰富一些。
我把这两种方式都说下。
01
安装 AnythingLLM 桌面
浏览器打开官网 https://anythingllm.com/ ,点击"Download for desktop" 下载。
你也可以根据自己电脑的操作系统复制下面地址下载:
1. 苹果系统:https://cdn.anythingllm.com/latest/AnythingLLMDesktop-Silicon.dmg
2. Windows: https://cdn.anythingllm.com/latest/AnythingLLMDesktop.exe
3. Linux:执行 curl -fsSL https://cdn.anythingllm.com/latest/installer.sh | sh 下载安装。
下载完成后,点击安装包一路安装就行。安装完成后,点击 AnythingLLM 图标启动服务。
02
Docker 安装 AnythingLLM
Docker 安装的 anythingllm 有些自己独有的配置,如自定义头像等功能,Docker 的安装过程如下:
在终端执行如下命令拉取镜像:
docker pull mintplexlabs/anythingllm
拉取完成后就启动实例了,对于 macOS 和 Linux 系统用户而言,执行如下命令启动 Docker 容器:
export STORAGE_LOCATION=$HOME/anythingllm && \``mkdir -p $STORAGE_LOCATION && \``touch "$STORAGE_LOCATION/.env" && \``docker run -d -p 3001:3001 \``--cap-add SYS_ADMIN \``-v ${STORAGE_LOCATION}:/app/server/storage \``-v ${STORAGE_LOCATION}/.env:/app/server/.env \``-e STORAGE_DIR="/app/server/storage" \``mintplexlabs/anythingllm
对于 Windows 用户,在 powershell/wsl 中执行如下命令:
` $env:STORAGE_LOCATION="$HOME\Documents\anythingllm"; ` ````If(!(Test-Path $env:STORAGE_LOCATION)) {New-Item $env:STORAGE_LOCATION -ItemType Directory}; ` ````If(!(Test-Path "$env:STORAGE_LOCATION\.env")) {New-Item "$env:STORAGE_LOCATION\.env" -ItemType File}; ` ````docker run -d -p 3001:3001 ` ````--cap-add SYS_ADMIN ` ````-v "$env:STORAGE_LOCATION`:/app/server/storage" ` ````-v "$env:STORAGE_LOCATION\.env:/app/server/.env" ` ````-e STORAGE_DIR="/app/server/storage" ` ```mintplexlabs/anythingllm;
执行成功后,在浏览器中打开 localhost:3001 使用 AnythingLLM。
如果有如下报错:
docker: Error response from daemon: Mounts denied:
The path /Users/maming/software/anythingllm/.env is not shared from the host and is not known to Docker.
You can configure shared paths from Docker -> Preferences… -> Resources -> File Sharing.
See https://docs.docker.com/desktop/settings/mac/#file-sharing for more info.
则打开 Docker 桌面版,点击设置 -> Resources -> File sharing -> 添加目录 -> Apply & restart 后,再重新执行 Docker 命令启动 AnythingLLM。
配置 AnythingLLM
初次打开 AnythingLLM 时,欢迎页面如下图,点击 “Get started”:
在 LLM Preference 中,根据自己的需求配置大语言模型。
以 DeepSeek 为例,点击选择 DeepSeek 后,然后去 https://platform.deepseek.com/api_keys 点击创建 API key,复制 key 粘贴到下图的 API key 输入框中,再选择对话模型为 deepseek-reasoner,即 R1。
由于 DeepSeek 官网 API 太卡,所以这里我以硅基流动作为默认配置,如果你不知道怎么操作的话,可以参考此文来创建硅基流动的 Key。
如果想使用硅基流动的服务,则需要选择 Generic OpenAI,各选项值如下:
1. Base URL:https://api.siliconflow.cn/v1
2. API Key:需要你在 https://cloud.siliconflow.cn/account/ak 中创建一个 key
3. Chat Model Name:如果是 DeepSeek R1 的话,则为 deepseek-ai/DeepSeek-R1。你也可以在模型广场 https://cloud.siliconflow.cn/models 中查看其他模型名称。
4. Token context window:DeepSeek R1 上下文长度最大为 64k,所以这里直接写 65536。
5. Max Tokens:查看硅基流动文档知,deepseek-ai/DeepSeek-R1 最大 token 为 8192。
配置完成后,点击向右箭头的按钮,进入下一步。
配置邮件地和用途,继续下一步。
然后配置工作区名称,比如我就叫 workspace,点击下一步完成配置。
进入主页面后,我们再进行一些通用设置,如修改主题色,修改展示语言为中文。
配置完成后,点击自己的工作区,就可以开始对话啦。
创建知识库
接下来我们看看如何配置个人知识库,建议是根据不同的功能创建不同的工作区,如我们可以为生活、写作、读书等创建不同的工作区。
_注:本部分即上面视频演示的部分。
_
点击"新工作区",输入工作区名,比如我取名为“DeepSeek 教练”,用于帮助我们学习 DeepSeek 知识。
接着点击上传按钮,上传文件。
然后上传我们的学习知识,PDF 以现在很火热的清华大学《DeepSeek:从入门到精通》为例,点击上传就可以了。网址以 https://qileq.com/404/ 、 https://qileq.com/408/ 为例,点击 “Fetch website” 就行了。
然后选中所有文档,点击 “Move to Workspace”,将文档移动到工作区。
点击 Save and Embed,等待数据向量化完成。
回到聊天区域,我们问个之前说过的一个好用的模板:“Deepseek 有什么好用的聊天模板吗?”
诶,他的回答就是我们在之前的文章中说的。
末尾还会显示引用来源,是不是很好用!
这里举了个简单例子帮我们测试整个流程,在实际使用的话,你可以将论文、课本、文章、英文资料等等都上传到自己的工作区,然后针对性的提问,这样能大大的提升效果!
使用 Agent 功能
AnythingLLM 还支持 Agent 功能,比如联网搜索、生成图表等,我们需要在设置的“代理技能”中
开启这些功能,然后点击保存就行了。
对于联网搜索功能而言,还需要我们指定搜索引擎:图简单的话,就使用 DuckDuckGo,无需额外配置,配置好后点击保存按钮。
如果想要更准确的结果,则使用 Google 或 Bing,这两者需要申请 API Key,其中 Google 每天有 100 次的免费查询额度,Bing 每个月有 1000 次免费查询额度。
在使用时需要我们指定对应的 @agent 才会生效,不过我在使用时,发现并不好用。
AnythingLLM 还对 Agent 做了些技能扩展,点击设置 -> Community Hub -> Explore Trending 可查看这些扩展。
如生成 Google 和 Outlook 的日历事件。
还可以增加更多斜线 / 命令。
如我们将 /flashcards 加入工作区后,只需要执行 /flashcards 即会根据工作区内容生成 flashcard,这种命令对学习英语还是蛮有用的。
同样的,将 /translate 加入工作区后,只需要执行 /translate 即可翻译内容。
小结
就我的使用经验来看,AnythingLLM 的功能还是很丰富的,但软件偶尔会有些 bug,整体还是蛮好用的。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。