五子棋AI：实现逻辑与相关背景探讨（下）-CSDN博客

2. 五子棋AI ：实现逻辑与相关背景探讨（下） 09-07

在上篇文章中，我们约定了一种衡量格子价值的方式，如下表。

综合价值排序	己方价值	敌方价值	对应的奖励数值
1	Lv1	?	2 20
2	?	Lv1	2 16
3	Lv2	?	2 12
4	？	Lv2	2 8
5	Lv3	？	2 4
6	Lv4	？	2 0

在该表中，对不同的情形，设计了不同的奖励数值，这些数值大多是采用经验公式，人为估计的数值，并不是最优良的数值。同样的，在上表中的除前两类为，其余都可根据实际情况进一步的细分权重，这里给出一个样例供大家参考/理解：

综合价值排序	己方价值	敌方价值	对应的奖励数值
3.1	Lv2	Lv2	2 13
3.2	Lv2	Lv3	2 12
3.3	Lv2	Lv4	2 11

同样是能构成杀招(Lv2等级)，能顺便堵死对面杀招/优良的位置自然是更好的。

在附录中给出了详细的权重表

本篇中我们将基于遗传算法讨论如何让AI学习奖励值。

遗传算法（Genetic Algorithm, GA）是一种模拟自然选择和遗传机制的优化算法。它用于寻找问题的最优解，特别适用于复杂的优化问题和搜索问题。遗传算法基于达尔文的自然选择理论，通过模拟生物进化过程来逐步改进解决方案。

遗传算法的基本步骤如下：

本文所设计的AI决策方案共包含12个参数，其中11个是奖励权重 R i ，1个是对劣质选项接受度 K 。

我们可以定义 N 个智能体，分别用初始权重进行初始化，一般来说， N 可以取10~100，最好选择偶数，否则会有一些不必要的麻烦。

初始化过程可以用数学公式表示为：

W i t = 0 = W 0

其中， W 0 表示初始权重， W i t = 0 表示第 t 代的第 i 个个体。

本例中，采用让AI对弈的方式，根据AI在棋局中的表现评估AI得分，具体流程如下：

当完成排名时，让排名后50%的AI及前50%的AI两两组合，其数学公式如下

W i t + 1 = W i t × ( 1 − c ) + W i − 50 t × c , N / 2 ≤ t ≤ N W i t + 1 = W i t × ( 1 − c ) + W i + 50 t × c , 0 ≤ t ≤ N / 2

其中： c 为学习因子（交叉率），表示AI在学习过程中对新知识（权重）的接受程度， c 越大，AI越倾向于接受新权重， c 越小，AI越倾向于保留旧权重。交叉率 c 一搬可取 0.01 ∼ 0.3

首先定义局部最优个体和全局最优个体。

局部最优 W b t ：如果一个个体在本轮中的综合成绩排名为第一名（胜场最多），那么称其为局部最优个体。
全局最优 W B ：当只进行一轮迭代时，全局最优个体等于局部最优个体，即： W B = W b t = 0 。当进行了不止一局游戏时，将新的局部最优个体与全局最优个体进行 N R 轮对局，倘若全局最优个体获胜，则其依旧为全局最优个体，倘若其失败，则局部最优个体成为新的全局最优个体。可以用数学公式表示为：

W B = { W b t if W b t win , W B otherwise .

为了保留最优的性状，将排名靠后的部分个体替换为全局最优个体，记替换率为 s ，一般取 0.02 ∼ 0.1

在变异过程中，个体的基因发生随机的改变。定义变异系数 m ，其绝对了变异的程度，一般来说 m 的范围在 0.01 ∼ 0.1 数学公式如下：

W i , j t = W i , j t × ( 1 + m j )

其中 W i , j t 表示第 t 代的第 i 个个体的第 j 个权重， m j 是在 ( − m , m ) 内的随机数。

以下给出遗传算法学习的流程

行为优先级

初始权重表

综合价值排序	己方价值	敌方价值	对应的奖励数值
1	Lv1	?	2 20
2	?	Lv1	2 16
3.1	Lv2	Lv2	2 13
3.2	Lv2	Lv3	2 12
3.3	Lv2	Lv4	2 11
4.1	Lv3	Lv2	2 9
4.2	Lv4	Lv2	2 8
5.1	Lv3	Lv3	2 6
5.2	Lv3	Lv4	2 4
6.1	Lv4	Lv3	2 2
6.2	Lv4	Lv4	2 0

符号说明

原创作者: SXWisON 转载于: https://www.cnblogs.com/SXWisON/p/18401356