基于LangChain+ChatGLM2-6B+embedding构建行业知识库

目的:最近在探索大模型本地化部署+知识库实现行业解决方案,安装过程记录,分享给需要的同学,安装前确定好各组件的版本非常重要,避免重复安装走老路。

经过查阅大量资料,目前可以分为以下两种方案

方案一:使用开源LLM本地部署和微调

优点:数据最安全,因为不管是模型还是训练数据都在本地

缺点:要调教出一个足够出色的模型,需要耗费较多的人力物力(当然相比于预训练已经好太多了)

具体实施:(LLAMA、ChatGLM2)+(Lora、P-Tuningv2、promote-tunning等)

方案二:基于LLM+向量数据库

优点:成本相对低,更简单,无需训练甚至无需微调

缺点:如果使用选择ChatGPT等云端大模型,则需牺牲掉一些隐私性

具体实施:LangChain+pinecone+(ChatGPT、ChatGLM2) 现成开源方案:Quivr、PrivateGPT

本文使用第二种方案,具体实施:

  1. LangChain+向量数据库+ChatGLM2
  2. LLM+向量数据库方案核心
  3. 三步走实现私有知识库

          *将私有知识库内容经过 embedding 存入向量知识库

          *用户每一次提问,把问题也 embedding,并利用向量相关性算法(例如余弦算法)找到向量知识库最匹配的几个片段

          *将这些片段,与用户问题一起作为 promt 提交给 LLM 回答

知识点:

    1. Embedding,在某种程度上,就是用来降维的,降维的原理就是矩阵乘法

    一个简单的例子,可以用地图来理解Embedding,现实的地理地形的信息其实远远超过三维,但是地图通过颜色和等高线等来最大化表现现实的地理信息(二维),所以地图就是现实地理的Embedding

    2. 而向量知识库是保存Embedding向量的地方

    3. LangChain 可以轻松管理Embedding向量知识库与LLM的交互,将多个组件链接在一起,是个很火的大语言模型开发框架

核心流程图解

一、部署环境

开通有GPU的服务器 CPU2核、内存24G或32G、显存24G或32G,低一些的配置页可以试试。
安装特别注意事项:版本问题
ChatGLM2-6B版本要装PYTORCH2.0,而且要2.0.1 ,就是这么精确,大家先试试用下面的命令安装一下行不行。CUDA不能用12.0 ,也不能用10.0,只能用11.x 版本。Python必须使用3.9的版本。

CentOS7.9

PYTORCH2.0.1

CUDA11.8

Python3.9

pip3 install torch=2.0.1 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

CUDA:11.8版本。我上次装 Tensforflow用了10.0CUDA,只能卸载以后重新安装CUDA 11,但是幸运的是CUDA安装程序非常智能,我的电脑上CUDA 12、CUDA11.8和CUDA 10能共存得很好,PATH里放的是最新的路径,没有压力。
CUDA换了,CUDNN也换成和CUDA11.8匹配的版本就行。装完检查一下(进命令行)

nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Wed_Sep_21_10:41:10_Pacific_Daylight_Time_2022
Cuda compilation tools, release 11.8, V11.8.89
Build cuda_11.8.r11.8/compiler.31833905_0

继续走:

在anaconda里建立一个环境,比如叫chatglm2-6b, 然后用activate 激活即可。

虚拟环境
 

conda create -n chatglm2-6b python=3.9
conda activate chatglm2-6b

如果你前面没有装 CUDA11,那就没办法装 pytorch2.0,系统就会提示。请乖乖回去装 CUDA11和CUDNN。

二、安装部署

下载源码

git clone https://github.com/imClumsyPanda/langchain-ChatGLM.git

安装依赖

cd langchain-ChatGLM
pip install -r requirements.txt

 (可能会影响现有PYTORCH和CUDA的版本,需要注意)

下载模型
# 安装 git lfs

yum install git-lfs

# 安装完成后,您可以运行以下命令来验证Git LFS是否已成功安装:

git lfs version

# 下载 LLM 模型(比较大的数据13G)

git clone https://huggingface.co/THUDM/chatglm2-6b $PWD/chatglm2-6b


# 下载 Embedding 模型(比较大的数据2.6G)

git clone https://huggingface.co/GanymedeNil/text2vec-large-chinese $PWD/text2vec


修改配置参数
在 configs/model_config.py 文件中,对embedding_model_dict和llm_model_dict参数进行修改。
 

cd configs
cp model_config.py.example model_config.py
vim model_config.py
"text2vec": "/root/llm/langchain-ChatGLM/text2vec",
"chatglm2-6b": "/root/llm/chatglm2-6b",

知识库初始化与迁移

当前项目的知识库信息存储在数据库中,在正式运行项目之前请先初始化数据库(我们强烈建议您在执行操作前备份您的知识文件)。

    如果您是从 0.1.x 版本升级过来的用户,针对已建立的知识库,请确认知识库的向量库类型、Embedding 模型与 configs/model_config.py 中默认设置一致,如无变化只需以下命令将现有知识库信息添加到数据库即可:

    python init_database.py

    如果您是第一次运行本项目,知识库尚未建立,或者配置文件中的知识库类型、嵌入模型发生变化,或者之前的向量库没有开启 normalize_L2,需要以下命令初始化或重建知识库:

    python init_database.py --recreate-vs

三、一键启动API 服务或 Web UI

1、一键启用默认模型

一键启动脚本 startup.py,一键启动所有 Fastchat 服务、API 服务、WebUI 服务,示例代码:

python startup.py -a

自动跳转到web页面,若不能跳转记得在代码末尾按一下Enter键,即可一键启动web页面。

服务器设置允许访问8501端口

http://43.156.*.*:8501/


自动跳转到web页面,若不能跳转记得在代码末尾按一下Enter键,即可一键启动web页面。

(对话输出文字比较慢,因为现在使用的是CPU,后边有设置成GPU的方法,就快很多。)

 

并可使用 Ctrl + C 直接关闭所有运行服务。如果一次结束不了,可以多按几次。

可选参数包括 -a (或--all-webui), --all-api, --llm-api, -c (或--controller), --openai-api, -m (或--model-worker), --api, --webui,其中:

    --all-webui 为一键启动 WebUI 所有依赖服务;
    --all-api 为一键启动 API 所有依赖服务;
    --llm-api 为一键启动 Fastchat 所有依赖的 LLM 服务;
    --openai-api 为仅启动 FastChat 的 controller 和 openai-api-server 服务;
    其他为单独服务启动选项。

2. 启用非默认模型

若想指定非默认模型,需要用 --model-name 选项,示例:

python startup.py --all-webui --model-name Qwen-7B-Chat

更多信息可通过 python startup.py -h查看。

添加个人知识库

如果当前回答结果并不理想,如下图所示,可添加知识库,对知识进行优化

本地添加知识库

将文档添加到knowledge_base——samples——content目录下:

 通过web页面添加知识库

重新微调模型

知识库添加完成之后,按照3.5-3.6重新运行程序,即可实现本地知识库更新。如下图所示,添加完《天龙八部》电子书之后,回答结果变得精准。


提升回答速度,把CPU改为GPU:

model_config.py文件中,修改

    # Embedding 模型运行设备。设为"auto"会自动检测,也可手动设定为"cuda","mps","cpu"其中之一。
    EMBEDDING_DEVICE = "auto"

为:

    # Embedding 模型运行设备。设为"auto"会自动检测,也可手动设定为"cuda","mps","cpu"其中之一。
    EMBEDDING_DEVICE = "cuda"

修改

    # LLM 运行设备。设为"auto"会自动检测,也可手动设定为"cuda","mps","cpu"其中之一。
    LLM_DEVICE = "auto"

为:

    # LLM 运行设备。设为"auto"会自动检测,也可手动设定为"cuda","mps","cpu"其中之一。
    LLM_DEVICE = "cuda"

如果对话模型选择"知识库对话"方式:


四、安装过程中问题解决:

1、组件版本的问题,Torch版本不支持CUDA,需要组件的匹配
 

(base) [root@VM-0-9-centos langchain-ChatGLM]#  python

Python 3.11.5 (main, Sep 11 2023, 13:54:46) [GCC 11.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch

>>> print(torch.__version__)
2.1.0+cu121

>>> torch.cuda.is_available()
/root/miniconda3/lib/python3.11/site-packages/torch/cuda/__init__.py:138: UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (found version 11000). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)
  return torch._C._cuda_getDeviceCount() > 0
False

2、重新安装pytorch匹配版本

1)命令行输入

conda uninstall pytorch

2)命令行接着输入

conda uninstall pytorch-cuda

(这一步许多教程中没有,导致还有十多个包没删除)
3)可以看到卸载完后

查看包的命令:conda list

安装pytorch=2.0.1
conda update --force conda
conda install pytorch=2.0.1 torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
conda install cchardet

3、Linux Centos7安装cuda 11.8命令

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo rpm -i cuda-repo-rhel7-11-8-local-11.8.0_520.61.05-1.x86_64.rpm
sudo yum clean all
sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install cuda-toolkit-11-8

4、配置CUDA环境

sudo vim ~/.bashrc
    在bashrc文件最下方,添加下入代码
    (ps:这边需要注意cuda的版本,版本不同,路径的命名需修改)

export PATH=$PATH:/usr/local/cuda-11.8/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.8/lib64


    更新环境

source ~/.bashrc


    测试CUDA是否安装成功

nvcc -V

安装完成之后

执行nvidia-smi如果出现 Failed to initialize NVML: Driver/library version mismatch
(就是和原有驱动不兼容问题)
4.1 重启即可
4.2 不重启方案 (服务端不能轻易重启情况)
4.2.1 杀死使用GPU相关进程, 看到pid之后杀死

sudo yum install -y lsof
sudo lsof -n -w  /dev/nvidia*


4.2.2 删除已有mod

sudo rmmod nvidia

    报错 rmmod: ERROR: Module nvidia is in use by: nvidia_modeset nvidia_uvm
    也就是 nvidia_modeset 和 nvidia_uvm 在使用, 将其也 rmmod
    同时执行以下命令, 遇到什么模块说 in use, 将其 rmmod

sudo rmmod nvidia_modeset
sudo rmmod nvidia_drm
sudo rmmod nvidia_uvm


再运行命令

sudo rmmod nvidia
sudo nvidia-smi


4.2.3此时发现nvidia-smi执行慢, 运行如下命令, 开启维护GPU的一个守护进程

nvidia-persistenced --persistence-mode

卸载cuda
yum remove -y cuda

5、页面将文档加入到向量库中,处理中报错:

 解决方法:

pip install -U --force-reinstall charset-normalizer

参考:
AI本地大模型之ChatGLM2-6B安装
https://zhuanlan.zhihu.com/p/643824521

linux nvidia 11.8 安装记录
https://blog.csdn.net/private_void_main/article/details/128014317

基于embedding+LangChain+ChatGLM2-6B 构建行业知识库
https://zhuanlan.zhihu.com/p/646405424

LangChain知识库+Lora微调chatglm2-6b模型+提示词Prompt的使用原则
https://blog.csdn.net/wxfighting/article/details/132087078

轻松搭建本地知识库的ChatGLM2-6B
https://blog.csdn.net/weixin_43734080/article/details/132756808

cuda、cuDNN、pytorch、torchvision、torchaudio 详细安装教程(报错解决、安装慢慢慢)
https://blog.csdn.net/qq_51392112/article/details/133588860

彻底清理CUDA安装(多版本一起清除)
https://blog.csdn.net/qq_53937391/article/details/131501801

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值