英伟达RAG训练营《AI-AGENT夏季训练营 — RAG智能对话机器人》实践报告书

NVIDIA AI-AGENT夏季训练营

项目名称:AI-AGENT夏季训练营 — RAG智能对话机器人
报告日期:2024年8月18日
项目负责人:王成儒

项目概述:
项目通过使用英伟达的RAG和NGC技术,搭建了一个可以辅助人员理解文字问答的AI机器人,其旨在帮助智力残障人士或者是为了给青少年学习知识提供帮助。机器人的作用是采用了多模输出展示技术,通过文生图模型与RAG文生文模型技术,可以在特定专业知识领域对于输入的教材或者文本,用人工智能的方式进行解读和品析。

技术方案与实施步骤
模型选择:
选择的大模型是bria-2.3和ai-phi-3-small-128k-instruct,通过使用bria-2.3这个轻量化小型化的图片生成模型,其速度快,精准性高,经过prompt的处理之后,可以很好的生成各个风格的图片。并且在线联网运行,对本机的显卡性能要求并不高。同样生成文本的大模型我选择了ai-phi-3-small-128k-instruct,他的性能也是很好的,可以通过英伟达NIM,对文本数据快速的进行处理。
在这里插入图片描述

数据的构建:
数据主要是分成了文字处理部分和向量处理两个部分。一开始先是通过最简单的环境变量设置,将英伟达的APIKEY导入进去,同时初始化了模型和嵌入器。
在数据处理部分,我这个应用并没有定制化到某一节课或者某个学科,仅仅只是个初始版本,向量的构建等工作我是直接使用的原始的向量参数进行操作。如果将来需要对特定某个内容进行定制,可以通过上传文本文档就可以很快的进行原始的创建工作,同样向量也会被记录并保存下来。

功能整合:
我的进阶功能主要设置在了图片的生成,在图片生成中,我初始化默认了一些参数,包括对于prompt的默认,以及各种nagtiveprompt的选择,这样可以很好的保证内容不会偏差的特别多。然后选用了英伟达的bria-2.3模型。使用模型时,我会将用户输入的内容和经过完整运算后的内容一齐打包塞入模型,这样虽然严谨性不会特别高,但是也不会有特别大的偏差。
实施步骤:
环境搭建:
安装openai、langchain_nvidia_ai_endpoints、langchain、faiss、requests等Python环境库。可以直接通过
Pip install openai,langchain_nvidia_ai_endpoints,langchain,faiss,requests

代码实现:
在这里插入图片描述

主要是在代码关键的生成图片中,在生成图片后,需要通过base64解析成可读内容,并且通过PIL快速将内容读取成图片并显示给前端Gradio。
同时,Gradio的搭建也是非常不可缺少的一步,在这里因为时间原因,我仅仅只搭建了一个交互平台,之后有时间我会继续完善其余内容。

项目成果与展示:
应用场景展示(必写): 描述对话机器人的具体应用场景,如客户服务、教育辅导等。
应用展示在具体的助智需求中,包括帮忙辅助残障人士、或者是刚入学的小学生等。通过图片的使用和文字讲解,可以很快的对各类人群所需的特定领域内容进行详细解析。
功能演示(必写): 在这里插入图片描述

1、左侧输入问题,右侧上方给出回答,下方会给出图片解析。

问题与解决方案:
问题分析:
主要问题就是当初打算再加入视觉展示和声觉感受等功能,可以通过观察言行,来辅助作用人群的学习生活。提高可用性和平均使用时间,让用户得到依赖感。但是因为代码编写和运作出现了一些问题,原本在windows上实践泡同的pyttsx3并没有完整运行,语音功能只能被抛弃了,同时一个全识别类型的视觉模块,有一定难度,后来也腰斩了没有正常执行。
在设计时,会遇到下列问题:代码运行过程中言不达意、运行速度慢等问题。
解决措施:
言不达意的解决我并没有做到,只能是减低了产生幻觉的可能性,通过调用多个模型反复预测的效果下,可以实现找到表意最准的一种(通过uie的相近意思表达做了一个对比),但是因为多个模型运作下,会十分卡顿,耗时长,并且效果提升不明显,后来砍掉了。
运行速度慢的问题,我降低了图片生成时的迭代次数,虽然图片会出现一定问题,但是并不是很多。并且降低了返回内容的长度,发现效果显著。

项目总结与展望:
项目评估: 项目整体属于初期阶段,进程缓慢。但是整体思路清晰,立意明确,将来可以针对生图和生文两个部分在进行提优培化,争取提升更可靠的RAG对话机器人。
未来方向: 未来会增加语音识别功能以及视觉识别功能,让机器人能接收更多类型的信息,争取做到全能多模态机器人的效果,并且提升将来的生成准确性,让人工智能的种子绽放在英伟达Jetson系列设备上,再度发光发热。(特别感谢英伟达官方以及英伟达社区的老师的辛勤付出!)

附件与参考资料

英伟达RAG教程
英伟达NGC教程

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值