在docker容器内搭建本地知识库-2

本地知识库

由于本地大模型始终无法搭建,因此自己写了一个调用在线大模型(但也预留了本地大模型的接口)、使用本地chunk器的本地知识库项目

1.分割中文PDF的文本分割器

pdfchunk模块:

该模块包含了一个辅助函数_split_text_with_regex_from_end基于给定符号对文本进行分割

ChineseRecursiveTextSplitter模块:

负责分割中文文本

PdfChunk工具类

用于提取PDF并分割

2.基于bge-large-zh的文本向量化

负责将用户的提问和context向量化,同时提供find_similar函数用于查找用户提问与原文的相似度排名

3.大模型通义千万接口

负责根据prompt对大模型进行提问并生成回答,同时保留了大模型的记忆

测试:

在langchain容器内运行代码:

streamlit run main.py

界面(目前只实现了基本的上传文本和提问的功能):

在这里插入图片描述

上传文本并加载

在这里插入图片描述

文档内容

在这里插入图片描述

提问:

在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值