NVIDIA NIM平台一小时手撕RAG与多模态智能机器人

LICHAD3920

于 2024-08-18 22:02:28 发布

阅读量507

点赞数 9

文章标签：机器人 python 人工智能语言模型 langchain prompt AIGC

本文链接：https://blog.csdn.net/LICHAD3920/article/details/141305358

版权

1. 项目概述

本项目借助Nvidia NIM 平台实现RAG智能对话机器人，以及智能图表分析机器人。

2. 技术方案与实施步骤

2.1 模型选择

实现RAG智能对话机器人，选择了“mistralai/mixtral-8x7b-instruct-v0.1”模型。mixtral-8x7b，属于Mixtral AI 公司发布的中等模型，对于实现RAG的功能，在推理速度和准确度上，有比较好的综合表现。

对于RAG，需要对文档进行向量化处理，并进行存储，使用的向量化模型为NIM 中提供的ai-embed-qa-4。

对向量化数据进行存储，则需要用到向量化数据库。主流的向量数据库比较如下。

在此我们选择开源的FAISS数据库。

2.2. 数据的构建

数据库构建过程如下。

我们获取的信息为网页信息，首先我们需要将网页信息加载，并进行预处理，如删除脚本和样式标签，只保留纯文本。

然后将其分块。分块的大小应适中，太大会导致大量内存的占用，太小会导致由于过于碎片化，而降低推理精度。

分块完成后，利用Nvidia NIM提供的向量化模型，将数据向量化，并进行存储。

2.3 功能整合

Agent智能体，一个整合了IO，存储，推理等功能的结合体，如下图所示。我们可以首先构建智能体的各个部件，然后利用langchain将各个部件连接起来。

项目中，使用两个Agent，整合功能结构如下：

3. 实施步骤

3.1 环境搭建

环境搭建首先参考

2024 NVIDIA开发者社区夏令营环境配置指南(Win & Mac)_csdn 2024nvidia开发者-CSDN博客

此外，因为我们要构建UI界面，故还需安装gradio。打开Anaconda Prompt（如下所示）。

进入工作环境，并利用pip安装gradio，即

pip install gradio

同时，我们要处理PDF文档，还需安装PyMuPDF，即

pip install PyMuPDF

然后我们需要进入NVIDIA NIM | phi-3-vision-128k-instruct, 点击Get API Key按钮，生成API Key，如下图所示。

将获取的key 放置于下图所示位置

3.2 代码实现

首先加载模型，然后构建IO链

我们还可以使用其他NIM中提供的LLM模型和embedding模型进行测试，部分可用的模型如下

Embeddings

[Model(id='nvidia/embed-qa-4', model_type='embedding'),
Model(id='nvidia/nv-embed-v1', model_type='embedding'),
Model(id='nvidia/nv-embedqa-e5-v5', model_type='embedding'),
Model(id='nvidia/nv-embedqa-mistral-7b-v2', model_type='embedding'),
Model(id='snowflake/arctic-embed-l', model_type='embedding')]

大模型
[Model(id='01-ai/yi-large', model_type=None),
Model(id='adept/fuyu-8b', model_type=None),
Model(id='aisingapore/sea-lion-7b-instruct', model_type=None),
Model(id='baai/bge-m3', model_type=None),
Model(id='baichuan-inc/baichuan2-13b-chat', model_type=None),
Model(id='bigcode/starcoder2-15b', model_type=None),
Model(id='bigcode/starcoder2-7b', model_type=None),
Model(id='deepseek-ai/deepseek-coder-6.7b-instruct', model_type=None),
Model(id='google/codegemma-1.1-7b', model_type=None),

......

]

多模态机器人，我们将文字和图片文档结合，进行处理，主要构建代码如下。