点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:学姐带你玩AI
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球(点开有惊喜),星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
论文题目:Hokoff:Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
论文地址:https://arxiv.org/pdf/2408.10556

创新点
提出了 Hokoff 数据集,这是首个基于《王者荣耀》的离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)基准数据集。该数据集涵盖了单智能体(1v1)和多智能体(3v3)场景,能够模拟真实世界的复杂决策环境,填补了现有离线 RL 数据集在复杂任务和多智能体场景中的空白。
提供了一个开源的、易于使用的离线强化学习框架,支持数据采样、模型训练和性能评估的全流程。该框架不仅支持多种离线 RL 和离线 MARL 算法的实现,还提供了丰富的工具和 API,方便研究人员开发新的算法或网络架构。
提出了一种新的基线算法 QMIX+CQL,将多智能体强化学习中的 QMIX 算法与保守 Q 学习相结合,专门用于处理《王者荣耀》中固有的层次化动作空间。实验结果表明,该算法在多种数据集上表现优于其他现有方法。
创新点通俗版
本研究类似建了一个"王者荣耀实战题库" + "考试评分系统" + "新解题方法"。
提出了新题库(Hokoff 数据集),首次用《王者荣耀》的真实对战数据,制作了供 AI 学习的题库。包含 1v1 单挑和 3v3 团战两种模式,覆盖简单到超难的各种情况。
提供了一个考试系统(开源框架),里面包含了数据读取器(把游戏录像变成 AI 能理解的数据)、算法训练器(内置 8 种主流强化学习算法)和评分系统(比如用固定对手测试AI水平)。
提出了一种新解题法(基线算法 QMIX+CQL),它结合了两种学习方法:QMIX:擅长团队配合;CQL:防止 AI 学习危险操作。
方法
本文提出了一个开源的离线强化学习框架,该框架涵盖了数据采样、模型训练和性能评估的完整流程。这个框架不仅为研究人员提供了一个标准化的实验平台,还通过实现多种离线RL和离线MARL算法作为基线,为算法的比较和验证提供了便利。此外,框架还提供了用户友好的API,方便研究人员开发新的算法或网络架构。
为了应对《王者荣耀》中复杂且层次化的动作空间,作者设计了一种新的基线算法QMIX+CQL。该算法结合了多智能体强化学习中的QMIX算法和保守Q学习(CQL),通过将动作空间中的每个头部视为一个独立的智能体,并在QMIX的局部Q函数中引入CQL的正则化项,从而有效地处理了复杂的动作空间结构。这一方法在多种数据集上的表现优于其他现有方法,证明了其在处理复杂动作空间时的有效性。
Hokoff框架的架构
本图展示了 Hokoff 框架的整体架构,涵盖了采样、训练和评估三个核心模块。采样模块通过与环境交互生成多样化的数据集,支持使用预训练模型进行高效的数据采集;训练模块实现了多种离线强化学习和离线多智能体强化学习算法,为研究人员提供了标准化的实验平台;评估模块则用于比较不同算法的性能,确保公平的基准测试。此外,框架还提供了用户友好的 API 和工具,方便研究人员开发新的算法或网络架构。这张图清晰地展示了 Hokoff 框架的模块化设计,突出了其灵活性和扩展性,为复杂游戏环境中的离线强化学习研究提供了一个全面且易于使用的解决方案。

HoK1v1 中所有数据集的小提琴图
本图展示了 HoK1v1 数据集中各个数据集的性能分布情况,通过小提琴图直观地呈现了不同难度级别(如简单、中等、困难)和不同任务设置(如多任务、泛化)下的 episode return 分布。小提琴图结合了箱线图和核密度估计,不仅展示了数据的集中趋势和离散程度,还揭示了数据的分布形状。这张图帮助读者理解数据集的多样性和复杂性,以及算法在不同环境下的适应性。通过这些图表,研究者可以直观地比较不同数据集的难度差异,以及算法在面对不同任务时的表现,从而为离线强化学习算法的性能评估提供了重要的参考。

实验结果
本表格展示了在 HoK1v1 游戏模式下,多种离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)算法在不同数据集上的平均测试胜率(或标准化分数)。这些结果揭示了现有算法在处理复杂任务、泛化能力和多任务学习方面的表现和局限性。在多难度级别(Multi-Difficulty)数据集中,算法在简单(norm)和困难(hard)级别上的表现差异显著,表明现有方法在面对复杂任务时的挑战。例如,QMIX+CQL 在 norm 级别数据集上表现较好,但在 hard 级别数据集上性能下降,这突显了离线方法在处理高难度任务时的不足。在泛化能力(Generalization)测试中,算法在训练和测试环境存在差异时的性能受到限制,这表明现有方法在泛化到未见过的场景时存在不足。例如,在 hero_general 和 oppo_general 数据集中,算法的胜率远低于在相同难度级别下的常规测试,说明算法难以适应英雄或对手的变化。在多任务学习(Multi-Task)数据集中,尽管算法在多任务数据集上的表现优于泛化设置,但仍未超过行为策略的性能,这表明离线方法在直接应用于多任务时仍需进一步研究。
结论
本文考虑到现有离线强化学习数据集在实际应用中的局限性,介绍了基于《王者荣耀》这一知名MOBA游戏的Hokoff。该游戏提供了高度复杂的环境,以模拟现实世界场景。我们提出了一个综合框架,用于进行离线强化学习研究,并发布了一个多样化且广泛的数据集,涵盖了各种难度等级和研究因素。此外,数据集的任务选择不仅适用于离线强化学习,还服务于离线多智能体强化学习。我们复现了多种离线强化学习和离线多智能体强化学习算法,并在我们的数据集上进行了彻底验证。结果突显了现有离线强化学习方法的不足,强调了在挑战性任务设置、泛化能力和多任务学习等领域进一步研究的必要性。本文讨论的所有组件,包括框架、数据集和基准实现,均为完全开源。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
卡尔曼滤波、大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~