The Art of Drafting: A Team-Oriented Hero Recommendation System for Multiplayer Online Battle Arena

最新推荐文章于 2024-07-06 10:36:46 发布

Nightmare004

最新推荐文章于 2024-07-06 10:36:46 发布

阅读量928

点赞数 9

分类专栏：深度学习文章标签： moba draft

本文链接：https://blog.csdn.net/qq_39942341/article/details/139575259

版权

深度学习专栏收录该内容

50 篇文章 2 订阅

订阅专栏

The Art of Drafting: A Team-Oriented Hero Recommendation System for Multiplayer Online Battle Arena Games

纯MCTS方法，阵容选定后，胜率用模型预测，然后反向传播
https://github.com/czxttkl/DraftArtist
没有训练，只有推理

方法

问题定义

DOTA2 Radiant(天辉)和Dire_(夜魇)
以天辉为例（先手选人）

$n = 2$ 玩家数量
$\subset \mathbb{Z}^N$ 游戏状态， $\in S$ 是一个 $N$ 维向量，表示一个游戏状态； $N$ 是总英雄数量
$s_{i} = \begin{cases} 1, & \text{Radiant} \\ -1, & \text{Dire} \\ 0, &\text{otherwise} \end{cases}$
$S_{T}$ 终态集合，bp结束
$\rho: S\to \left\{ \text{Radiant}, \text{Dire}\right\}$ 轮到哪一队选英雄
$A$ 选人动作集合
$\times A \to S$ 转移函数
$\to \mathbb{R}^2$ 奖励， $R^1 \left( s \right)= -R^2\left( s \right)=w \left( s \right)$ ，其中 $\left( s \right)$ 表示Radient胜率

MCTS

Monte Carlo Tree Search（MCTS）
在这里插入图片描述

Upper Confidence Bound applied to trees（UCT）
Upper Confidence Bound（UCB）
UCT = MCTS + UCB

选择
从根节点往下搜索，直到终态或者可扩展节点
若一个节点全扩展完了，那么下一个节点用UCB来选择
$\pi_{UCB} \left( s \right) = \arg\max\limits_{a} \left\{ \bar{w} + c\sqrt{ \frac{\log n \left( s \right) }{n \left( s,a \right) } } \right\}$

其中 $s$ 是当前状态， $a$ 是动作， $\bar{w}$ 是平均回报（平均胜率）， $\left( s \right)$ 是总访问次数， $c$ 是平衡常数
子节点访问次数越少，公式后半部分越大，让节点有机会被访问到

扩展
随机选择一个未访问过的动作，进入下一个节点

模拟
通过随机动作到终态

反向传播
更新访问过的节点的胜率和访问次数

胜率预测

$s_{i} = \begin{cases} 1, & \text{Radiant} \\ -1, & \text{Dire} \\ \Xi, &\text{ban}\\ 0, &\text{otherwise} \end{cases}$

12个特殊字符 $\Xi$ （？）
对于奖励函数 $R\left( s \right)$ ，输入的 $s$ 可以将ban的英雄设置为 $0$

模型为mlp classifer，隐藏层数为1，维度为120
（111->120->2）

评估

数据集

dota2 2016.02.11-2016.03.02
5百万场“Ranked All Pick”对局，包含阵容和平均段位（正常，高，非常高）
为了降低段位的影响，选择了正常段位
最后有3056596场，111个英雄

胜率预测训练

对比方法：
梯度提升树（GBDT）
逻辑回归（LR）：对
majority class（MC）：直接预测天辉赢，因为有53.75%的对局天辉赢
在这里插入图片描述

模拟

对局1000局，轮流先手
第一个英雄：每个英雄被选择的概率和在数据集中被选的概率有关

在这里插入图片描述

$\text{UCT}_{n,c}$ ， $n$ 是迭代， $c$ 是常数

Association Rules (AR)：设定一些规则，比如这个英雄选了的情况下选另一个英雄counter
Highest Win Rate (HWR)：选胜率最高
Random (RD)：随机

全英雄模式
同一行的迭代次数是一样的，因此调 $c$ 作用不大
在这里插入图片描述

全英雄模式
UCT比非UCT胜率高
基本趋势是随着迭代，胜率越来越高
在这里插入图片描述

在这里插入图片描述

Captain Mode
在这里插入图片描述

在ban环节，UCT将输出的英雄ban了
c开始有影响，所以图中的c是实验中最好的
UCT比非UCT好
在这里插入图片描述

Nightmare004

关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
The Art of Drafting: A Team-Oriented Hero Recommendation System for Multiplayer Online Battle Arena

DOTA2 Radiant(天辉)和Dire_(夜魇)以天辉为例（先手选人）n2n=2n2玩家数量S⊂ZNS⊂ZN游戏状态，s∈Ss \in Ss∈S是一个NNN维向量，表示一个游戏状态；NNN是总英雄数量si1Radiant−1Dire0otherwisesi⎩⎨⎧1−10RadiantDireotherwiseSTS_{T}ST终态集合，bp结束ρS→RadiantDireρ。
复制链接

扫一扫