Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings-CSDN博客

本文链接：https://blog.csdn.net/qq_39942341/article/details/138303860

Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings

摘要

‌‌‌‌　　提出绝悟-SL（JueWu-SL）将宏观战略（macro-strategy）和微观管理（micromanagement）以监督和端到端的方式整合到神经网络中。
‌‌‌‌　　在王者荣耀上测试，达到有最高的水准

介绍

‌‌‌‌　　宏观战略：英雄去哪
‌‌‌‌　　微观策略：英雄到了之后，做什么
‌‌‌‌　　假设我们可以拥有标注良好的标签（嵌入了团队的策略和行动），已经MOBA游戏中每个小型战斗的表达，那么在足够训练数据的情况下，SL就有可能提炼出从小型战斗到标签的映射

模型

特征
- 向量特征
- 类似图像特征
标签
- 宏观战略目的标签
  - 全局目的
  - 局部目的
- 微观管理动作标签
  - 高维（high-level action）：例如移动
  - 具体动作：例如移动方向

模型输出动作标签，目的标签是辅助任务

宏观战略目的

移动区域

哪里发生战斗玩家就有可能去哪，因此标签定义为下次玩家去哪
其中攻击行为不一定是玩家的目标，也可能是去那埋伏
因此我们只考虑存在连续攻击行为的区域（？）

Supervised Learning Achieves Human-Level Performance in MOBA Games: A Case Study of Honor of Kings

摘要

介绍

模型

特征
- 向量特征
- 类似图像特征
标签
- 宏观战略目的标签
  - 全局目的
  - 局部目的
- 微观管理动作标签
  - 高维（high-level action）：例如移动
  - 具体动作：例如移动方向

模型输出动作标签，目的标签是辅助任务

宏观战略目的

移动区域

哪里发生战斗玩家就有可能去哪，因此标签定义为下次玩家去哪
其中攻击行为不一定是玩家的目标，也可能是去那埋伏
因此我们只考虑存在连续攻击行为的区域（？）
在这里插入图片描述

全局目的

玩家下次攻击的目标或区域
例如：刷兵，刷野，推塔

将小地图分为 $\times N$ 个区域
标签：下一次去哪个区域
设 $s$ 是一个session，每个session以攻击行为结束
$t_s$ 是 $s$ 的开始帧
$y_s$ ：区域
$s - 1$ 的标签是 $y_s$ ，代表想要移动到这
在这里插入图片描述

局部目的

局部战斗的短期计划
例如躲草丛，回塔下，等待目标英雄

将玩家局部地图分为 $\times M$
标签：局部地图的区域，通过两次攻击事件中玩家的中间位置提取（？）

微观管理层级动作设计

第一层：什么动作（eg.移动
第二层：动作怎么执行（eg.移动方向
在这里插入图片描述

多模态特征

向量特征
- 英雄属性
  - hp
  - 过去帧hp（过去某一帧？过去几帧？）
  - 技能冷却
  - 伤害属性
  - 防御属性
  - 经济
  - 等级
  - buff
  - 过去帧位置
  - …
- 游戏状态
  - 团队击杀差
  - 经济差
  - 游戏时间
  - 塔
  - …
类似图像特征
- 全局类似图像特征
  - 能观察到的英雄
  - 建筑
  - 小兵、野怪
  - …
- 局部类似图像特征
  - 敌方技能伤害
  - 小兵、野怪
  - 英雄位置
  - …

类似图像特征从游戏引擎中提取
‌‌‌‌　　全局的从小地图中提取
‌‌‌‌　　局部的从英雄局部地图
过去帧的作用（判断敌人目的？

网络结构

一个英雄一个模型
数据集 $\left\{ \left( x_{i},y_{i} \right) : i=1,\cdots, n \right\}$ 从过去的游戏中提取
每个实例 $\left( x_{i},y_{i} \right)$ 从当前和过去帧提取
（数据集由一堆帧的信息构成？）
特征 $x_{i}=\left\{ x_{i}^{v},x_{i}^{g}, x_{i}^{l} \right\}$
标签 $y_{i}=\left( y_{ai}^{0},y_{ai}^{1}, y_{bi}^{g},y_{bi}^{l} \right)$
$y_{ai}^{0}\in \left\{ 1,\cdots, m \right\}$ 和 $y_{ai}^{1}$ 是一级动作标签和二级动作标签， $m$ 表示1级动作数量

全局目的和局部目的
$\begin{aligned} p^{m+1} &= e_{g}\left( \left[ h_{l}\left( x^{l};\psi_{l} \right), h_{g}\left( x^{g};\psi_{g} \right) \right] ;\phi_{g} \right) \\ p^{m+2} &= e_{g}\left( \left[ h_{l}\left( x^{l};\psi_{l} \right), h_{g}\left( x^{g};\psi_{g} \right) \right] ;\phi_{l} \right) \end{aligned}$
向量特征：
分成11个部分，分别过FC然后再合并（但是你看网络图，是直接过fc的）
$h\left( x \right) =h_{m}\left( \left[ h_{v}\left( x^{v};\psi_{v} \right),h_{g}\left( x^{g};\psi_{g} \right), h_{l}\left( x^{l};\psi_{l} \right) ,p^{m+1},p^{m+2} \right];\mu \right)$

$m + 1$ 个函数 $\left\{ f^{i}\left( \cdot;\omega_{i} \right): i=0,\cdots,m \right\}$
$p=\left( p^{0},\cdots,p^{\left( m+2 \right)} \right)$
$p^i=f^{i}\left( h\left( x \right);\omega_{i} \right), i=0,\cdots, m$

目测 $p^{0}$ 是 $m + 1$ 维向量，每个代表动作概率
目测 $p^i$ 是每个目标的概率（动态的？召唤物？方向？）
损失：
$\left( p,y \right) =w_{a 0} l_{CE}\left( p^{0},y_{a}^{0} \right)+w_{a 1} l_{CE}\left( p^{y_{a}^{0}}, y_{a}^{1} \right) +w_{bg}l_{CE}\left( p^{m+1},y_{b}^g \right) +w_{bl}l_{CE}\left( p^{m+2}, y_{b}^{l} \right)$
整体损失
$\min_{\theta} \sum_{i=1}^{n} l \left( p_{i},y_{i} \right) +\lambda \|\theta \|_{2}^2$
在这里插入图片描述

预处理

场景识别

推塔
战斗
刷兵
刷野
回城
导航（移动）

每个场景下的数据调整

‌‌‌‌　　这种细分使特定英雄再每个场景中打法保持相似，从而方便调整英雄再每个场景中的表现。
‌‌‌‌　　例如在导航中，不要漫无目的放技能、战斗中应该重点放技能和攻击，并且走位躲技能

跨场景数据调整

场景比例不平衡（毕竟你也不能一直回城把
根据英雄进行下采样

移动样本增强

因为移动很重要

玩家的走位方向通常随机或者无效，因此不能只用单帧来计算
我们用后 $N$ 帧来确定
在战斗中 $N$ 比较小（因为要细致走位）
其他场景可以粗略

攻击采样归一化

在战斗和推塔场景中，目标选择很重要

在原始数据集中，攻击目标不均衡（高伤低血（HDLH）和低伤高血（LDHH））
攻击LDHH的更多（谁近打谁），但是正常来说应该先打HDLH（切c位）

也是通过采样进行均衡

实验

实验设置

数据集

从前1%的玩家对局中进行采样。采样包括特征、标签、标签权重、帧数…
通过英雄、游戏等级（段位）、红蓝方、表现分数（KDA）、时间来筛选
通过KDA来过滤表现不佳的对局，实验中设置为超过90%实用该英雄的KDA

经过预处理，平均只留下 $\frac{1}{20}$ 帧
12万局游戏得到1亿个样本

模型设置

‌‌‌‌　　向量特征有2334个特征，其中2180为10个英雄，154个为玩家英雄
‌‌‌‌　　局部视野：以英雄为中心，30000长度，然后分成 $31 * 31$ 个格子，目的是每个格子和英雄大小(100)差不多
‌‌‌‌　　局部类似图像特征维度 $59 * 31 * 31$
‌‌‌‌　　小地图分为 $24 * 24$ 个格子（边长113000）
‌‌‌‌　　全局类似图像土整维度 $56 * 24 * 24$