建设一个私有知识库问答网站

最新推荐文章于 2025-02-20 11:17:49 发布

原创

最新推荐文章于 2025-02-20 11:17:49 发布

· 1.1k 阅读

16 ·

版权

文章标签：

#人工智能 #自然语言处理 #知识图谱

本文档介绍了如何使用Flask、向量数据库Chromadb和Langchain组件创建一个私有知识库问答网站。通过将内部知识文档编码并存储在数据库中，模型能够根据用户问题查询相关文档内容作为上下文进行回答。改造包括安装向量数据库、网站界面更新和后台应用改造，实现了根据用户需求开启或关闭知识库功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在上一篇博客中，我用Flask和开源大模型建立了一个智能问答网站用Flask打造一个大模型智能问答WEB网站-CSDN博客，可以根据用户的问题来进行回答。但是模型能回答的知识受限于其训练数据，如果我们有一些私有的知识想让模型回答，模型是无法给出答案的。为此我们可以让模型根据我们的私有文档数据，来进行阅读理解，从而对用户提出的问题找到对应的答案。

为了建立一个私有知识库网站，我们需要用到向量数据库来对文档内容进行编码，然后存储到数据库中，当用户提出问题时，通过查询数据库，我们可以获取到和用户问题相似性最高的文档内容，然后把文档内容作为上下文提供给模型，使得模型根据这个信息来进行回复。

以下是建立私有知识库后的效果：

chatbot_knowledgebase

从以上演示我们可以看到，当我们打开知识库的开关后，系统能够正确的回复用户的问题，而不打开知识库，系统无法正确回答，只能一本正经地“胡说八道”。

现在我介绍一下如何实现这个知识库问答系统。

安装向量数据库

这里我选择Chromadb作为我的向量数据库，在官网上可以看到这个数据库的介绍和使用方法，非常简便。除了Chromadb之外，我们还需要安装Langchain的组件

首先是收集我们的内部知识文档，例如我在演示中展示的，我在网上搜集了一下火凤线的相关信息，这是一条小众的徒步路线，在模型的训练数据中从未出现过，正好适合作为我们的知识库数据进行演示。把这些信息保存为txt文件，放置在一个目录中。然后通过Langchain提供的工具，对文档进行切分，例如我们设置以500个字符大小作为切分条件，然后允许切分的文档之间有50个字符的重叠，如以下代码：

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

loader = DirectoryLoader('huofeng/', glob="**/*.txt")
docs = loader.load()

chunk_size = 500
chunk_overlap = 50
splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
)
chunked_docs = splitter.split_documents(docs)

docs = []
for doc in chunked_docs:
    docs.append(doc.page_content)

ids = []
for i in range(len(chunked_docs)):
    ids.append('id'+str(i))

以上代码把切分后的文档内容添加到docs列表中，同时生成对应的id列表。

然后我们就可以建立一个向量数据库，把数据添加进去了，如以下代码：

import chromadb

client = chromadb.PersistentClient(path="./db")
collection = client.create_collection(name="huofeng")

collection.add(documents=docs, ids=ids)

只要三行代码，我们就建立了一个向量数据库了。然后我们可以测试一下进行查询：

result = collection.query(query_texts="火凤线徒步", n_results=5)

返回的结果如下：

{'ids': [['id8', 'id2', 'id1', 'id12', 'id17']],
 'distances': [[0.9534385363719755,
   0.9863589706903214,
   1.0401753801778044,
   1.1084357742703561,
   1.1092408681204537]],
 'metadatas': [[None, None, None, None, None]],
 'embeddings': None,
 'documents': [['火凤线徒步：\n\n火凤线，即广州市内火炉山到凤凰山 渔东路徒步路线，全程山地，有几个坡度。一般全程12KM左右，适合有一定耐力的户外新人。预计中午15:00左右，走到渔东路结束，自行公交返回。\n\n难度指数：★★☆☆☆ （初级）\n\n风景指数：★★☆☆☆\n\n【市内线.火凤】广州入门级经典徒步路线 火凤线徒步\n\n2021\n\n08\n\n26 15:54\n\n火凤线徒步：\n\n火凤线，即广州市内火炉山到凤凰山 渔东路徒步路线，全程山地，有几个坡度。一般全程12KM左右，适合有一定耐力的户外新人。预计中午15:00左右，走到渔东路结束，自行公交返回。\n\n难度指数：★★☆☆☆ （初级）\n\n风景指数：★★☆☆☆\n\n活动主题：徒步广州火凤线\n\n活动内容：徒步\n\n主 办 方：广州去旅行户外俱乐部\n\n集合时间：周六8:40签到 9:00准点出发（迟到不等，户外活动注意守时）\n\n集合地点：华观路（火炉山森林公园站）\n\n乘车方式：公交B10、20路 、78路A可到\n\n集合标志：“去旅行”黄色旗帜\n\n活动时长：当天来回\n\n交通方式：公共交通\n\n装备建议：\n\n1、午餐干粮零食、水果、至少2L水或运动饮料。',
   '初级登山爱好者的路线\n\n火凤线\n\n8月1/8日，当天来回\n\n火凤线\n\n广州市内经典的徒步路线，火炉山\n\n猪仔山\n\n凤凰山\n\n筲箕窝水库(龙洞)水库\n\n大和嶂\n\n洞旗峰\n\n龙眼洞森林公园，该线路强度等级为标准级，一般情况下需连续不断登山行走9小时以上。\n\n火凤线，顾名思义是从火炉山到凤凰山的一条线路，该线路一般情况走下来大约要4个小时，路程大约11公里。\n\n凤凰山，位于筲箕窝水库东南，主峰海拔373.3米。得名“凤凰山”是因为山顶上有一大草窝，传闻为凤凰栖息之处。\n\n火炉山，因状似从天空俯视其形状象葫芦且山上泥土多为红泥土，所以称火葫芦，简称“火炉”，因此又名火炉山。\n\n火炉山和凤凰山的山路多以阶梯、黄泥路、急升坡为主，没有盘山公路，属于比较接近原生态的类型，没有过度的开发，比较适合于初次徒步的驴友。\n\n【集合地点】火炉山森林公园南门（岑村）B11总站集中\n\n【强难级别】★