【RAG】浅谈NVIDIA AI-AGENT在游戏中的应用

前言

2023-11-10 openai首发 多模态视觉模型 GPT 4 Turbo Vision preview,可以从图片中理解,但价格昂贵,只解析了5秒低分辨率视频就5美分,应用在游戏行业需要数十万美元。
在这里插入图片描述
2024-8-16 游戏行业已经注意到人工智能的水平发展可以做更高水平更human-like的机器人
在这里插入图片描述
如今,仅仅过去不到一年时间,微软AI研究院推出的phi-3 vision模型能力可能未超过GPT4 Turbo但部署成本直接忽略不计,并且可本地部署!并且有幸参与NVIDIA社区与开发者关系部门组织夏季训练营推广NIM平台,真实在感受到了大模型的威力和便利的调用,为下一步爆发式应永落地提供了可能。
在这里插入图片描述

NVIDIA AI-AGENT夏季训练营

项目名称:AI-AGENT在游戏拟人性上的检测
报告日期:2024年8月18日
项目负责人:clarkbai

项目概述

传统FPS类型游戏中设计的AI中,不论是基于行为树,状态机,还是强化学习,目标只有一个就是拟人,只有高度human-like的机器人才能在匹配中让玩家不易察觉。如何检测AI拟人性目前业内没有很好的手段,基本上都还是策划或QA主观体验感觉。没法量化,没法自动化测试。此次项目旨在通过大模型对视频的理解能力,太判断视频角色操作是否拟人,也可以应用在反外挂方面。
在这里插入图片描述

技术方案与实施步骤

模型选择

Phi-3-vision-128k-instruct 4.2B 参数多模态模型
该模型在5,000亿个视觉和文本tokens上进行了训练,使用了512个H100 GPU进行了1.5天的训练。模型的训练方法包括预训练、监督微调和对齐调整等步骤,使用了合成数据以提高训练效果。
https://github.com/microsoft/Phi-3CookBook/blob/main/md/03.Inference/Vision_Inference.md

数据的构建:

在这里插入图片描述

RAG结合了检索和生成的优点,增强了生成模型的知识覆盖面,减少了模型参数的依赖:RAG 模型同时利用了检索模型和生成模型的优点。检索模型可以从大量文档或知识库中找到与输入问题相关的内容,而生成模型可以在这些相关内容的基础上生成更加流畅、连贯的自然语言输出。通过检索外部知识库,能够实时获取最新的或未在训练数据中出现的知识,从而增强了模型对新信息的处理能力。同时补充生成模型的知识,从而在一定程度上减少了对超大模型参数的依赖,节约成本。

功能整合 :

游戏视频 切割为 图片 -> 图片 input Phi3-vision 识别为文本 -> 对比多图 提示工程 + RAG 从游戏获取数据(待实装)

实施步骤

环境搭建:

Phi-3-vision 本地部署

python --version
Python 3.12.4
WIn10 或 Win11

conda install pytorch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 pytorch-cuda=12.1 -c pytorch -c nvidia

重点flash_attn的安装:
pip install flash-attn --no-build-isolation
但在win下要注意nvidia drivier版本
https://github.com/bdashore3/flash-attention/releases
flash_attn-2.6.3+cu123torch2.3.1cxx11abiFALSE-cp312-cp312-win_amd64.whl


pip install transformers
pip install datasets
pip install jupter

通过NIM部署

pip install faiss-cpu
pip install langchain-community
pip install langchain-nvidia-ai-endpoints
pip install langchain
pip install openai

代码实现:

分割视频
在这里插入图片描述
远程调用 NIM
在这里插入图片描述
本地调用在这里插入图片描述
在这里插入图片描述从UI界面读取
在这里插入图片描述在这里插入图片描述

测试与调优:

在这里插入图片描述

集成与部署:

在这里插入图片描述

项目成果与展示:

应用场景展示(必写): 描述对话机器人的具体应用场景,如客户服务、教育辅导等。

功能演示:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

问题与解决方案:

问题分析:

  1. 图片分辨率和数量可能导致显存不够,测试在20多张时24G显存用光,有优化空间
  2. 关键帧分析不准,游戏通常在30FPS到60FPS,现在5FPS缺失信息
  3. 提示工程需优化

解决措施:

  1. RAG图片绑定再看下

项目总结与展望:

项目评估:

在游戏领域使用大模型还是很有想象力和潜力的,但是工程上有较大优化空间

未来方向:

  1. 游戏拟人化分析
  2. 游戏对局策略分析

附件与参考资料

NIM
https://developer.nvidia.com/nim
Phi-3
https://azure.microsoft.com/en-us/blog/introducing-phi-3-redefining-whats-possible-with-slms/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值