在docker容器内搭建本地知识库-2

最新推荐文章于 2024-07-25 20:57:11 发布

cynicme

最新推荐文章于 2024-07-25 20:57:11 发布

阅读量222

点赞数 3

文章标签：自然语言处理

本文链接：https://blog.csdn.net/cynicme/article/details/140572302

版权

本地知识库

由于本地大模型始终无法搭建，因此自己写了一个调用在线大模型（但也预留了本地大模型的接口）、使用本地chunk器的本地知识库项目

1.分割中文PDF的文本分割器

pdfchunk模块：

该模块包含了一个辅助函数_split_text_with_regex_from_end基于给定符号对文本进行分割

ChineseRecursiveTextSplitter模块：

负责分割中文文本

PdfChunk工具类

用于提取PDF并分割

2.基于bge-large-zh的文本向量化

负责将用户的提问和context向量化，同时提供find_similar函数用于查找用户提问与原文的相似度排名

3.大模型通义千万接口

负责根据prompt对大模型进行提问并生成回答，同时保留了大模型的记忆

测试：

在langchain容器内运行代码：

streamlit run main.py

界面（目前只实现了基本的上传文本和提问的功能）：

在这里插入图片描述

上传文本并加载

在这里插入图片描述

文档内容

在这里插入图片描述

提问：

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cynicme

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
在docker容器内搭建本地知识库-2

由于本地大模型始终无法搭建，因此自己写了一个调用在线大模型（但也预留了本地大模型的接口）、使用本地chunk器的本地知识库项目。
复制链接

扫一扫

在docker容器内搭建本地知识库-1

cynicme的博客

07-20

141

选择langchain。安装langchain。

Docker搭建内部知识库（Wiki）

Hui_and的博客

06-21

7964

构建一个知识管理的内部知识库，Docker＋MySQL 8.0的组合进行搭建简单快捷，配和GitLab进行数据备份

参与评论您还未登录，请先登录后发表或查看评论

docker 搭建 AI大数据模型 --- 使用GPU

yhl18931306541的博客

06-28

484

docker 搭建 AI大数据模型 --- 使用GPU

Docker 容器编排之 --- docker-compose 详解

shenyuanhaojie的博客

12-05

3281

文章目录一、Docker-Compose 简介1. Dockerfile 与服务编排2. Docker-Compose 三层管理项3. Docker-Compose 的配置文件二、知识点1. YAML 文件格式及编写注意事项2. 使用 YAML 时需要注意以下事项3. 数据结构4. Docker-Compose 配置常用字段5. Docker-Compose 常用命令6. Docker-Compose 文件结构三、Docker-Compose 安装1. 安装 Docker2. 安装 Docker-Compo

Dockerfile指令与Docker-compose容器编排-搭建docker私有仓库.doc

07-08

Dockerfile 指令与 Docker-compose 容器编排-搭建 docker 私有仓库本文档主要讲解了 Dockerfile 指令、Docker-compose ...以上是 Dockerfile 指令与 Docker-compose 容器编排-搭建 docker 私有仓库的相关知识点总结。

Docker环境搭建文档1

08-04

以下是 Docker 环境搭建文档1 的知识点总结：一、安装 Docker 要安装 Docker，需要使用 yum 工具来安装相关依赖项，包括 yum-utils、device-mapper-persistent-data 和 lvm2。然后，添加 Docker 的 yum 仓库，...

jaeger-elasticsearch-compose:Docker-compose配置，可将Jaeger用作Elasticsearch作为存储来快速部署

05-15

7. **Jaeger-elasticsearch-compose-master**：这个压缩包很可能包含了完整的Docker-compose配置文件和必要的脚本，用户只需要解压并运行 `docker-compose up`，就可以在本地启动Jaeger和Elasticsearch的组合，无需...

dev-in-a-box：Docker容器中的开发环境

02-06

Docker 容器运行在 Docker 引擎上，轻量级且高效，相比传统虚拟机，启动速度快，资源占用少。 2. **Node.js** 和 **JavaScript**： Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境，它让 JavaScript ...

docker:在Docker容器中运行Pelias地理编码器，包括示例项目

04-29

我们认为，只有社区能够吸收真正具有代表性的本地知识，开放式地理编码器才能长期改善。 Docker中的Pelias 该存储库包含使用Docker和下载/准备和构建的框架。专案示例项目包含在目录中。我们建议您以首次使用...

【自然语言处理】概论（一）：自然语言处理概要

古月居

07-25

649

语言：语言就广义而言，是采用一套具有共同处理规则来进行表达的沟通指令，指令会以视觉、声音或者触觉等方式来传递。可以分为:自然语言、动物语言、计算机语言。。。自然语言人类在发展过程中形成的一种信息交流方式，包括口语和书面语，反映人类的思想。它自然地随文化演化，是人类用来沟通的指令，可以通过视觉、声音或触觉等方式传递。定义：自然语言处理是计算机科学和人工智能的一个分支，它旨在开发能够理解和生成人类语言的技术。通过建立形式化计算模型来分析、理解和生成自然语言的学科。

【Langchain大语言模型开发教程】评估

qq_47982709的博客

07-24

512

这里我们打印一下这个生成的example，发现是一个列表长下面这个样子；4、初始化一个LLM并创建一个RetrievalQ链；让大语言模型对实际答案和预测答案进行对比并给出一个评分；让大语言模型来为我们每个example来生成答案；我们再次执行来查看chain中的细节；那我们是不是可以使用语言模型来评估呢；3、创建向量数据库（内存警告⚠）；最后，我们可以打印一下看看结果；所以这里我们需要进行一步提取；1、引包、加载环境变量；我们初始化一个评估链；

大模型llama结构技术点分享；transformer模型常见知识点nlp面经

weixin_42357472的博客

07-25

188

大模型模型结构，大模型nlp面经，transformer

SNIFFER：用于可解释性的虚假信息检测的多模态大语言模型

qq_52053775的博客

07-25

115

近年来，随着Deepfake及其他媒体操纵技术的广泛应用，其逼真效果和对假新闻传播速度的显著加速，已引起社会各界的广泛关注。其中，将未经篡改的图像与全新的但虚假或误导性的上下文结合，形成所谓的“脱离上下文”（OOC）误导信息，已成为误导公众视线的一种简单且普遍的手段。以最近的以色列-哈马斯战争为例，社交媒体上涌现了大量OOC误导信息，这些误导信息往往涉及旧有图像的滥用，被错误地关联至不相关的武装冲突场景，甚至电子游戏内的军事画面。

Knowledge Editing for Large Language Models: A Survey

最新发布

qq_53795212的博客

07-25

682

在本文中，我们将将要注入 LLMs 的知识表示为知识三元组 t = (s,r,o)，其中 s 是主题（例如美国总统），r 是关系（例如是），o 是对象（例如拜登）。从知识三元组的角度来看，针对 LLMs 的 KME 的目标是将模型预训练权重中编码的原始知识三元组 t = (s, r, o) 修改为目标知识三元组 t∗ = (s, r, o∗)，其中 o∗ 是与 o 不同的目标对象。

论文阅读：A Survey on Evaluation of Large Language Models-鲁棒性相关内容

CSPhD-winston的博客

07-25

432

Wang等人(2023c)是一项早期工作，使用AdvGLUE (Wang等人，2021)、ANLI (Nie等人，2019)和DDXPlus (Fansi Tchango等人，2022)数据集等现有基准，从对抗性和OOD角度评估了ChatGPT和其他LLMs。卓等人(2023b)评估了语义解析的鲁棒性。评估系统面对意外输入的稳定性是鲁棒性研究的核心，主要从对抗鲁棒性和出分布泛化两方面考察大语言模型，发现当前模型对对抗性提示和视觉输入显著脆弱，提示模型在部署中面临安全隐患，需要继续提高模型的鲁棒性。

python机器学习8--自然语言处理（2）

m0_63860007的博客

07-25

282

次数的统计）在很多情况下，有一些文章内的英文字符、标点符号分词的结果不符合自己的预期，会出现一些不想要的分词，此时就能通过以下的函数自己设定用词，并且删除。因为jieba对每一个字会给出IDF分数比重，但是在很多时候，会希望把文章中特别的关键字突显出来（或者降低），可以设定IDF分数高一些（或低一些），就能将想要的字突显出来（或者降低）。一个demo次数的统计）

Llama 3.1：开源语言模型的新里程碑

wuhanwhite的博客

07-25

924

Llama 3.1的发布无疑是开源语言模型发展的一个重要里程碑。405B参数模型与顶级商业闭源模型的竞争力，以及8B参数模型超越Google Gemma 2 9B的表现，都展示了开源社区的巨大潜力。Meta允许将Llama 3.1用于知识蒸馏，这一决定将进一步推动开源AI社区的蓬勃发展。让我们一起期待AI技术的持续进步，为更开放、更强大的语言模型贡献力量。下期再见，各位兄弟朋友们请多保重！

python机器学习8--自然语言处理（1）

m0_63860007的博客

07-24

866

语义：就是一句话的重点是什么。自定词汇：因为语言、文字太多，自定和处理你所关心的重点词汇。简体转繁体代码text1 = "我去过清华大学"print(" "+text1) # 打印原文本print("s2t;"+line) # 打印转换后的文本2.中文分词断词工具在中文分词的处理方面，Python有几个第三方的程序pymmseg、smallseg和jieba，本节将介绍的是jieba。这个需要先安装。