战棋游戏中的简单策略方法:基于群表示论的思想

最新推荐文章于 2021-09-22 15:51:35 发布

hanss2

最新推荐文章于 2021-09-22 15:51:35 发布

阅读量935

点赞数 4

分类专栏：代数随感

本文链接：https://blog.csdn.net/hanss2/article/details/109080628

版权

随感同时被 2 个专栏收录

73 篇文章

订阅专栏

代数

20 篇文章

订阅专栏

本文探讨了一种将群表示论应用于战棋游戏策略算法的方法。通过建立棋盘操作与群的对应关系，利用群的性质简化计算，并通过群同态描述战斗结果。作者提出了一种弱群表示，用于描述棋局状态变化，并通过计算群元素的同态值寻找最优策略。算法中包含了剪枝策略以提高效率，整个过程类似深度优先搜索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

战棋游戏中的简单策略方法:基于群表示论的思想

最近在开发一款自娱自乐的基于上世纪30年代历史背景的战棋游戏,需要为其设计一个策略算法,我一开始就想可能用比较传统的动态规划,恰逢本周周一周二中科院数学所的田野老师来我们组讲授Galois Representation,对我有一定启发,忽然发现这个算法亦可用群表示论的形式来表述,其直观性会更良好,计算起来可能更加方便;

背景

考虑一个静态棋盘,我们把战争过程简化为以军事单位为棋子的对弈,称之为战棋游戏(图片是EasyTech的欧陆战争2);

在这里插入图片描述

那么假设AI是一位指挥官,它需要充分考虑己方军事单位的状态、战斗力、行动能力和敌手的可能行为来决策行动;

群表示及其在战棋策略中的应用

下面先回顾一些基本概念:

定义1.1 一个群是一个集合 $G$ 带有一个"二元运算",即一个映射 $\times G \rightarrow G$ ,称为乘法 $\in G \times G$ 在此映射下的像记作 $\cdot b$ 或 $a b$ ,称为 $a$ 与 $b$ 的积,满足条件:
i) $(a b) c = a (b c)$ 对任意 $a,b,c\in G$ 成立(称为"乘法结合律");
ii) 存在(唯一的) $e=e_{G}\in G$ 使得 $a e = e a = a$ 对任意 $a\in G$ 成立( $e$ 称作单位元);
iii) 对任意 $a\in G$ ,存在(唯一的) $b\in G$ 使得 $a b = b a = e$ ( $b$ 称作 $a$ 的逆元,记 $b=a^{-1}$ );

在这里插入图片描述
(各种各样的群,群就是一组操作的集合以及它们的操作对象构成的一个代数结构!!!)

两个群之间的映射如果和群运算相容,则称为同态;详细说：

定义1.2 设 $G, G^{'}$ 为群.一个映射 $f:G\rightarrow G'$ 称作同态,如果 $f (a b) = f (a) f (b)$ 对 $\forall a,b \in G$ 成立;

群是个抽象的结构,我们当然自然地希望能够在一个方便熟悉的计算工具上等价地计算、研究它,这就是群表示的motivation;

定义1.3 设 $G$ 是任一群, $V$ 是域 $F$ 上的向量空间.如果存在群同态 $\rho:G \rightarrow \text{GL}(V),$ 其中 $\text{GL}(V)$ 是一般线性群,即 $V$ 上全体可逆线性变换的乘法群,则称 $(V,\rho)$ 是 $G$ 的一个 $F$ -线性表示,称为 $F$ -表示 $V$ 或 $F$ -表示 $\rho$ .

若 $V$ 是有限维的,将 $\operatorname{dim}_{F}V$ 称为该表示的维数或次数,记为 $\operatorname{deg}\rho$ ;将 $V$ 称为表示空间.

令 $\operatorname{Ker} \rho:=\left\{g \in G \mid \rho(g)=1_{V}\right\}$ ,称为表示 $\rho$ 的核.若Ker $\rho=\{1\}$ ,则称 $\rho$ 是忠实表示.

那么回到战棋策略的问题,我们现在考虑一种"弱"一些的表示,也就是不太满足群表示中一定用矩阵表示的要求,当然,我们先从最基本的下棋操作开始,引入群工具:

假设当前己方所处的棋盘位置坐标为 $p_s=(x,y)$ ,那么有两个基本操作:

$m(\Delta p),a(\Delta p)$

分别代表向 $\Delta p$ 方向移动或者向 $\Delta p$ 方向攻击敌手,可见这两种(但是 $\Delta p$ 有多种选择)基本操作是生成元:那么己方的行动空间就是有限生成群:

$G_s = <m(\Delta p),a(\Delta p)>$

注意己方的状态和战斗力参数组合 $\theta_s=(H_s,m_s,A_s,D_s)$ 也就是(己方生命值,己方行动力,己方攻击力,己方防御力),我们有模拟战斗过程的计算函数 $f(\cdot)$ 计算己方和敌手的伤亡:

$\begin{array}{ll} \Delta H_s=f(A_e,D_s,H_s,H_e) \\ \Delta H_e=f(A_s,D_e,H_s,H_e) \end{array}$

也就是战斗结果和己方的参数和敌手参数均有关,我们不妨写作:

$\Delta H_s,\Delta H_e = F(\theta_s,\theta_e)$

下面考虑群同态: $\rho_s:G_s \rightarrow \pi$ (稍后证明其它是个同态)
取 $\rho(g_s) = \Delta H_s-\Delta H_e$ ,也就是计算己方决策 $g_s$ 带来的双方战斗伤亡之差,很显然己方的目标是使得 $\rho(g_s)$ 尽可能大(注意 $\forall \Delta H \le0$ );

$\rho_s:G_s \rightarrow \pi$ 显然满足对 $\forall g_1,g_2 \in G_s$ 满足:

$\rho_s(g_1g_2)=\rho_s(g_1)+\rho_s(g_2)$
(比如, $\rho_s(m(\Delta p_1)a(\Delta p_2))=\rho_s(m(\Delta p_1))+\rho_s(a(\Delta p_2))$ ,这是因为两步之间是独立的;)

最优策略

好的,现在就是最重要的事情,如何高效地找到最优策略???
我们把AI的决策分为3步:

i) 计算己方行动的决策空间;
ii) 计算己方的每一个决策下敌手的决策子空间;
iii) 选取使得 $\Delta H_s-\Delta H_e$ 最大化的策略;

在这里插入图片描述

现在假设己方已经选取了决策 $g_s$ ,那么敌手同样有一个群表示 $\rho_e:G_e \rightarrow \pi$ ,那么可以计算其决策子空间: $\rho_e(g_e|g_s)$ (也就是给定己方决策 $g_s$ 后敌手的可能决策及其伤亡情形);

但是敌手也有多种决策,我们只能假设其选取每一种决策是等概率事件,最终的伤亡情形只能取一个期望:

$\mathbb{E} [\rho_e(g_e|g_s)]= \sum_{g_e \in G_e} \mathbb{P}(g_e|g_s)\rho_e(g_e|g_s)$

最终的目标函数就是(我们只需要选取使得下式取最大值的策略即可):

$\max_{g_s}T(g_s) = \max_{g_s} \rho_s(g_s) + \mathbb{E} [\rho_e(g_e|g_s)]$

剪枝策略

剪枝策略,属于算法优化范畴;通常应用在DFS和BFS搜索算法中;剪枝策略就是寻找过滤条件,提前减少不必要的搜索路径;

在这里插入图片描述
如图所示,假设我们在计算 $T(g_s)$ 的过程中,一开始就记录一个最小的目标函数值 $T_{\text{bad}}(g_s)$ (遇到更小则更新,易见在如下策略中,更新只会发生在完全计算到叶子节点);那么如果中间过程有 $T'<T_{\text{bad}}(g_s)$ ,那么该分支对应的策略可以立即抛弃不必再计算;