搭建一个本地AI知识库需要用到哪些技术栈？

最新推荐文章于 2025-03-04 10:13:44 发布

LLM教程

最新推荐文章于 2025-03-04 10:13:44 发布

阅读量1.2k

点赞数 21

文章标签：人工智能大模型国产大模型 langchain LLM 程序员编程

本文链接：https://blog.csdn.net/aai666666/article/details/144093835

版权

随着AI热度愈发火热，越来越多的产品在AI的“赋能”下不断革新和进化。

AI技术的飞速发展不仅改变了人们的生活方式，也大大提升了各行各业的生产效率和创新能力。

在此背景下，我们不妨自己动手丰衣足食，搭建一套属于自己的本地的AI ChatBot？顺便学习下“高大上”的AI技术，亲身体验和把握这股“科技潮流”？

本篇，我们将通过全局的视角来看一下 “基于本地上传的文档进行QA问答” 类似的案例，需要学习哪些知识点以及会用到哪些技术栈。

目前，根据我所了解到的知识，市面上深层次的ChatBot主流实现框架基本都是大同小异。

本地大模型 + LangChain + 前端界面

结合RAG框架：上传本地文件 + 文件切片 + Embedding向量编码 + LLM大语言模型

首先，从本地加载文档（upload & loader），比如：pdf、txt、csv、md等从许多不同来源加载文档，LangChain提供了100多种不同的文档加载器。
加载完成后，对文档进行处理，提取文档信息
提取完文档信息后，进行文本切分
- 为什么要切分文本？因为有时候我们的文档内容比较多，比如一本书，这种情况下不可能一次性去处理，就需要将文本切成一块一块的，分块处理。
- 如何进行合理切分？我们通常希望将主题相同的文本片段放在一块。例如，Markdown文件是由h1、h2、h3等多级标题组织的，我们可以根据Markdown标题分割文本内容，把标题相同的文本片段组织在一块。借助LangChain的MarkdownHeaderTextSplitter文本切割器实现。
文档切割后得到文本块
对切割完成后的文本块进行Embedding向量编号 Embedding这里我们会用到很多模型，比如可以调用OpenAI的接口（收费），还可以用HuggingFaceHub（免费）等。
将所有文本的编码全部存储到向量数据库中例如：Faiss、Pinecone、Chroma、Milvus等。

这种实现方式有什么好处呢？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

LLM大模型学习路线 ↓