1.创建开发机
2.创建环境
进入开发机后,从官方环境复制运行 InternLM 的基础环境,命名为 InternLM2_Huixiangdou
,在命令行模式下运行:
studio-conda -o internlm-base -t InternLM2_Huixiangdou
复制完成后,在本地查看环境。
conda env list
# 创建模型文件夹 cd /root && mkdir models # 复制BCE模型 ln -s /root/share/new_models/maidalun1020/bce-embedding-base_v1 /root/models/bce-embedding-base_v1 ln -s /root/share/new_models/maidalun1020/bce-reranker-base_v1 /root/models/bce-reranker-base_v1 # 复制大模型参数(下面的模型,根据作业进度和任务进行**选择一个**就行) ln -s /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-7b /root/models/internlm2-chat-7b
从茴香豆官方仓库下载茴香豆。
cd /root # 克隆代码仓库 git clone https://github.com/internlm/huixiangdou && cd huixiangdou git checkout b9bc427
2 使用茴香豆搭建 RAG 助手
2.1 修改配置文件
用已下载模型的路径替换 /root/huixiangdou/config.ini
文件中的默认模型,需要修改 3 处模型地址,分别是:
2.2 创建知识库
本示例中,使用 InternLM 的 Huixiangdou 文档作为新增知识数据检索来源,在不重新训练的情况下,打造一个 Huixiangdou 技术问答助手。
首先,下载 Huixiangdou 语料:
cd /root/huixiangdou && mkdir repodir git clone https://github.com/internlm/huixiangdou --depth=1 repodir/huixiangdou
在确定好语料来源后,运行下面的命令,创建 RAG 检索过程中使用的向量数据库:
# 创建向量数据库存储目录 cd /root/huixiangdou && mkdir workdir # 分别向量化知识语料、接受问题和拒绝问题中后保存到 workdir python3 -m huixiangdou.service.feature_store --sample ./test_queries.json
向量数据库的创建需要等待一小段时间,过程约占用 1.6G 显存。
但报错了
先安装缺失的模块
pip install duckduckgo_search
但又报错了:
仔细检查发现是路径写错了。
修复后成功运行: