基础作业
1环境配置
1.1使用之前InternML-demo环境
1.2使用之前InternML-demo拷贝的模型
1.3LangChain 相关环境配置
安装以依赖包:
Sentence Transformer下载:
1.4下载NLTK相关资源
1.5下载项目代码:
2. 知识库搭建
2.1数据收集,
选择由上海人工智能实验室开源的一系列大模型工具开源仓库作为语料库来源,包括:
- OpenCompass:面向大模型评测的一站式平台
- IMDeploy:涵盖了 LLM 任务的全套轻量化、部署和服务解决方案的高效推理工具箱
- XTuner:轻量级微调大语言模型的工具库
- InternLM-XComposer:浦语·灵笔,基于书生·浦语大语言模型研发的视觉-语言大模型
- Lagent:一个轻量级、开源的基于大语言模型的智能体(agent)框架
- InternLM:一个开源的轻量级训练框架,旨在支持大模型训练而无需大量的依赖
加载数据,构建向量知识库到开发机本地磁盘
3 InternLM 接入 LangChain
教程LLM.py
4、5构建检索问答链, web demo
基于 Gradio 框架将其部署到 Web 网页,开发机运行端口7860
本地电脑终端映射开发机端口
本地电脑浏览器打开http://127.0.0.1:7860/会话
进阶作业(基于pytorch中文文档的RAG问答小助手)
1 .环境配置(参见Tutorial/langchain at main · InternLM/Tutorial (github.com))
2数据集收集:github仓库中的pytorch中文教程
# 进入到数据库盘
cd /root/data
git clone https://github.com/apachecn/pytorch-doc-zh.git
加载数据并用开源词向量模型 Sentence Transformer 来进行文本向量化
Chroma 作为向量数据库,基于上文分块后的文档以及加载的开源向量化模型,将语料加载到指定路径下的向量数据库
3 InternLM 接入 LangChain
4部署 Web Demo
5结果:
评价:实用性有待加强