2017，EuroGP，Geometric Semantic Crossover with an Angle-Aware Mating Scheme in GP for SR

青年有志

已于 2023-10-06 10:24:44 修改

阅读量149

点赞数

分类专栏：符号回归文章标签：机器学习算法人工智能

于 2023-04-07 13:46:48 首次发布

本文链接：https://blog.csdn.net/qq_46450354/article/details/129991761

版权

符号回归专栏收录该内容

42 篇文章 13 订阅

订阅专栏

在这里插入图片描述

Abstract

最近的研究表明，将语义知识融入遗传编程 (Genetic Programming，GP) 进化过程可以提高其性能。本工作提出了一种角度感知的匹配方案，用于符号回归的 GP 中的几何语义交叉。角度感知指导对相对语义与目标语义之间夹角较大的父代进行交叉操作。所提出的角度感知的思想已经被纳入了一个最先进的几何交叉，局部几何语义交叉。实验结果表明，与局部几何语义交叉和常规 GP 交叉相比，带有角度感知的局部几何交叉不仅具有显著更好的学习性能，而且在未知测试数据上具有显著的泛化性能。进一步分析了有角度意识和无角度意识的交叉区域的角度分布的差异，证实了角度意识通过减少零度的父代数量而增加大角度的父代数量来改变原有的角度分布，从而导致更好的性能。

1 Introduction

近年来，融合进化过程中的语义知识以提高搜索效率的语义遗传编程 (Semantic Genetic Programming，GP) [11、18] 受到越来越多的关注，成为 GP 的研究热点 [6]。最近，一种流行的语义方法- -几何语义 GP (GSGP)被提出 [12]。GSGP 直接在 GP 个体的语义空间中进行搜索。几何交叉和变异算子产生的子代位于语义空间中父代 (s) 的语义定义的边界内。这些几何算子探索的适应度景观为圆锥形，不包含局部最优，更容易搜索。在以往的研究中，与标准 GP [17、19] 相比，GSGP 具有显著的学习增益。对于泛化能力的提升，GSGP 表现出一定的积极作用。然而，尽管几何变异被认为是带来泛化效益的关键，但几何交叉被批评对某些回归任务的泛化促进作用较弱 [5]。一个可能的原因是测试集上的目标输出超出了测试语义空间中用于交叉的父代凸组合的范围 [13]。另一个可能的原因是，交叉操作可能会在语义空间的紧凑体中对相似的父代进行操作，从而产生与父代语义重复的子代。在这种情况下，无论目标语义在覆盖范围内还是外，种群都难以收敛到目标输出。因此，几何交叉产生的子代难以很好的推广。因此，在这项工作中，我们有兴趣通过解决这个问题来改进几何交叉。

这项工作的总体目标是提出一种新的角度感知匹配方案来选择几何语义交叉，以提高 GP 用于符号回归的通用性。几何语义交叉算子的一个重要性质是它生成的子代位于语义空间中由两个父点定义的片段中。因此，子代的质量高度依赖于两个父代在语义空间中的位置。然而，这种父代对几何语义交叉有效性的影响一直被忽视。
在本文中，我们提出了一种新的几何交叉的匹配方案，使其在语义空间中对不仅擅长适应度而且与目标点的相对位置有较大夹角的父代进行操作。我们的目标是研究新提出的匹配方案对几何交叉算子的影响。具体研究目标如下：

为了研究带角度感知的几何交叉是否可以提高 GSGP 的学习性能，
研究带角度感知的几何交叉是否可以提高 GSGP 的泛化能力，
以及研究带角度感知的几何交叉如何影响 GSGP 演化模型的计算成本和程序规模。

2 Background

本节简要介绍了几何语义 GP，并回顾了几何交叉点的相关工作。

2.1 Geometric Semantic GP

在引入几何语义 GP 之前，需要给出 GP 中个体语义的形式化概念。回归领域中广泛使用的语义定义如下： GP 个体的语义是一个向量，其元素是个体对应给定的样本输出，据此，个体的语义可以解释为 $n$ 维语义空间中的一个点，其中 $n$ 为向量 [9、11] 中的元素个数。

几何语义 GP 是语义 GP 中一个较新的分支。它直接在语义空间中进行搜索，这是与其他非直接语义方法(如 [2、16]) 的显著区别。在语义空间中的搜索是通过其精确的几何语义交叉和变异来完成的。下面给出几何语义交叉 (GSX) 的定义 [12]：

定义 1 几何语义交叉(Geometric Semantic Crossover)：给定两个父代个体 $p_1$ 和 $p_2$ ，一个几何语义交叉算子在父代个体的语义之间产生具有语义 $s(p^′_i)$ 的子代 $p^′_i(i∈(1,2) )$ ，即 $s(p_1)，s(p_2|| =||s(p_1 )，s(p^′_i)|| + ||s(p^′_i)，s ( p2 )‖$ 。

与几何交叉相关的另一个重要概念是凸包。它是来自于几何学的一个概念，是一组点的所有凸组合的集合。在几何语义 G P中，凸包可以看作是几何交叉产生的子代能够覆盖的最宽的体积。

为了满足定义 1 中的语义约束，人们开发了各种几何交叉算子 [9、12]。局部几何语义交叉 [9] (LGX) 是一种典型的性能较好的方法。

2.2 Locally Geometric Semantic Crossover

Krawiec and Pawlak [8] 提出了局部几何语义交叉 (LGX)，试图在子树层次上产生满足定义 1 中语义约束的子代。在应用 LGX 之前，需要生成由一组小规模树组成的库 L。库 L 中的树有一个最大深度限制 M，并且通常每个树都有唯一的语义。然后给定两个父代 $p_1$ 和 $p_2$ ，LGX 试图找到它们的同源子树，这是两个父代最大的结构公共子树。在同源子树内选择两个对应的交叉点。

然后，将这两个交叉点上的两个子树 $p_{c1}$ 和 $p_{c2}$ 替换为从 $L$ 中选取的一棵子树 $p_r$ 。 $p_r$ 从多个与 $p_{c1}$ 和 $p_{c2}$ 中点语义最近的 $K$ 个程序中随机选取，即 $S(p_r)≈ \frac{(S(p_{c1}) + S(p_{c2}))}{2}$ ，其中 $S (p)$ 表示 $p$ 的语义。LGX 的优点是可以通过检索库中的小子树来满足语义约束，但不会带来子代规模的指数增长。应用表明，LGX 对 GP 的性能有明显的改善 [9]。

2.3 Related Work

GSX 执行两个亲本的凸组合。它生成位于语义空间中父点定义的片段中的子代。因此，在欧氏度量下，子代不可能比父代更差。Moraglio 等人 [12] 提出了精确几何交叉，它是在整个树的层次上满足语义约束的解空间上的变换，即 $P_{xo} = P_1 · F_r + P_2 · ( 1 - F_r )$ ，其中 $P_i$ 是交叉的父代， $F_r$ 是输出值在 [0 , 1] 范围内的随机实函数。尽管精确几何交叉具有潜在的成功，但它被批评导致子代的规模呈指数增长。Vanneschi 等 [17] 提出了几何算子的实现来克服子代规模不可管理的缺点。它们的目的是在结构上不产生新的世代而获得后代的语义。新的实现使得 GSX 可以应用于现实世界的高维问题。然而，演化后的模型仍然难以展示和解释

在进化过程中，如果目标输出在凸包之外，那么 GSX 必然无法找到最优解。针对这一问题，Oliveira et al [13] 提出了一种适用于 GSX 的色散算子(geometric dispersion operator)。他们提出了一种几何扩散算子，将个体移动到语义空间中目标输出周围较不稠密的区域。通过扩散种群，新的算子增加了种群的凸包覆盖目标的概率。在大多数测试的数据集上，学习和泛化性能取得了显著的提升。

然而，即使种群的凸包覆盖了目标，如果 GSX 的父代选择不当，GSX 仍然可能失败，种群仍然可能收敛到远离目标的小体积。已知由于平方欧氏距离度量的凸性，子代不能比双亲差。然而，在整个种群的层面上，仍然有很高的概率认为这种进展在语义空间中对引导种群朝向目标输出没有太大的作用，特别是当交叉操作在语义空间中对非常相似的父代执行的比例很大时。在本工作中，我们提出了一种新的几何语义交叉匹配方案，以防止这种趋势，并促进 GSX 的探索能力。

3 Angle-Aware Geometric Semantic Crossover (AGSX)

本文采用基于树的 GP，提出了一种新的角度感知的几何语义交叉 (AGSX) 匹配方案。该部分介绍了 GP 算法的主要思想、详细过程、AGSX 的特点以及适应度函数。

3.1 Main Idea

交叉点如何在语义空间中扩散对 GSGP 的性能至关重要。在凸包给定的情况下，如果凸组合覆盖更大的体积，则可以更好地收敛到目标点。AGSX 应该应用于目标输出在其语义中间区域附近的父代。考虑到生成子代的语义往往位于父代语义的片段中，AGSX 有望产生接近目标输出的子代。为了促使凸组合覆盖更大的体量，两个父代在语义空间上应该有更大的距离。

这里可以使用父代之间的语义距离，但这往往会导致群体中语义多样性的迅速丧失，从而导致过早的解决。因此，我们利用父代对目标输出的相对语义之间的夹角来度量他们在语义空间中的距离。具体地，设目标输出为 $T$ ，两个父代的语义分别为 $S_1$ 和 $S_2$ ，则两个父代的相对语义与目标输出的夹角 $α$ 定义如下：
$\alpha = arccos \left(\frac{(S_1 - T)· (S_2 - T)}{||S_1 - T|| · ||S_2 - T||} \right) \tag{1}$

其中 $(S_1 - T)· (S_2 - T) = \sum^n_{i=1}(s_{1i} - t_i) · (s_{2i} - t_i)$ , $\sqrt{\sum_{i=1}^n(s_i - t_i)^2}$ , 这里的 $i$ 表示 n 维语义空间中的第 $i$ 维, $s_{1i}, s_{2i}, t_i$ 分别为第 $i$ 维的 $S_1, S_2$ 和 $T$ 的值

图 1 展示了二维欧氏空间中 AGSX 的机制，该空间可以缩放到任意 $n$ 维空间。每个点代表 GP 中一个个体的语义。如图所示，有 4 个个体 $p_1、p_2、p_3$ 和 $p_4$ ，可选为 AGSX 的亲本。假设 $p_1$ (在蓝色中)已经被选为一个父代，需要从 $p_2、p_3$ 和 $p_4$ 中选择另一个父代进行 AGSX， $α_1$ 、 $α_2$ 和 $α_3$ 分别表示三对父代中的角度 $p_1，p_2〉、〈p_1，p_4〉$ 和 $p_1，p_3〉$ 。

三个绿色点 $S (o 1) 、 S (o 2) 、 S (o 3)$ 表示三对亲本对应的三个子代，绿色线表示它们到目标点的距离。从图中可以看出，父代对 $〈 p 1 ， p 3 〉$ 夹角较大，即 $α_3$ ，生成的子代 $S(o_3)$ 更接近目标输出。在理想情况下黄色点 $S(bp_2)$ 为第二个父代, 生成的子代极有可能是目标点。换句话说，如果父代的相对语义与目标输出的夹角越大，则生成的子代越趋近于目标输出。因此，我们需要选择与目标输出相对语义角度较大的父代

为了实现这一点，我们开发了一个新的匹配方案来选择与目标输出相对语义角度较大的父代。首先，通过对当前种群重复应用选择算子(例如,锦标赛选择)，生成一个名为 WaitingSet 的候选父代列表。WaitingSet 的大小由种群规模 $N$ 和交叉率 $R_X$ 决定，即 $∣ w ai t se t ∣ = N \cdot RX$ 。然后，在不进行替换的情况下，从 WaitingSet 中选择每个 AGSX 操作的父代，从而使所选父代的相对语义之间的夹角最大化。 AGSX 的详细过程在 Sect.3.2.

3.2 The AGSX Process

AGSX 的伪代码如算法 1 所示。对于给定的父代 $p_1$ ，寻找具有最大相对角的配偶的过程如第 3 - 18 行所示. 根据公式 (1) 计算角度, 如第 6 行所示。

3.3 Main Characteristics of AGSX

与 GSX 相比，AGSX 具有三大优势。首先，AGSX 采用角度感知方案，该方案灵活且独立于交叉过程本身，可以应用于任何形式的几何语义算子。其次，AGSX 操作于语义空间中的不同个体。这样，生成的子代在语义空间上与父代完全相同的可能性较小。即 AGSX 可以减少语义重复。第三，通过对与目标输出相对语义夹角较大的父代进行操作，AGSX 更容易产生更接近目标输出的子代。

3.4 Fitness Function of the Algorithm

Minkowski 度量 $L_k( X , Y) = \sqrt[k]{\sum_{i=1}^n |x_i - y_i|^k}$ 计算两点之间的距离，用于评估个体的表现。通常情况下，个体与目标之间存在两种 Minkowski 距离。它们分别是曼哈顿距离 ( $L_1$ 通过设定在 $L_k ( X , Y )$ 中 $k = 1$ ) 和欧氏距离 ( $L_2$ )。根据以往的研究 [1]，欧氏距离是一个很好的选择，并在本文中使用。定义如下：
$\sqrt{\sum_{i=1}^n |x_i - t_i|^2} \tag{2}$

其中， $X$ 为个体的语义， $T$ 为目标语义。

4 Experiments Setup

为了研究AGSX在提高GP性能方面的作用，一种GP方法将角度感知应用到最近的一种近似几何交叉中，提出了局部几何语义交叉，并命名为GPALGX。对GPALGX和具有局部几何语义交叉的GP ( GPLGX )进行了比较。我们对Sect. 2.2中的LGX进行简单介绍。对于GPLGX的更多细节，读者可以参考[ 9 ]。标准GP也被用作比较的基线。所有比较的方法都是在Python中的分布式进化算法( DEAP ) [ 4 ]提供的GP框架下实现的。

4.1 Benchmark Problems

使用六个常用的符号回归问题来检验三种GP方法的性能。目标函数的细节以及训练数据和测试数据的采样策略如表1所示。前两个问题是文献[ 10 ]中推荐的基准问题。中间的三种方法在[ 14 ]中使用。最后一个来自文献[ 3 ]，它是常用的Quartic函数的改进版。这六个数据集在最近关于几何语义GP [ 14、15 ]的研究中得到了广泛的应用。记号rnd[ a , b]表示变量从区间[ a , b]中随机采样，而记号mesh ( [ start：step：stop ] )定义集合使用规则间隔采样。由于我们对所提出的交叉算子的泛化能力更感兴趣，因此测试点是从略宽于训练点的范围中提取的。

在这里插入图片描述

4.2 Parameter Settings

参数设置见表2。对于标准GP，其适应度函数不同于GPLGX和GPALGX。由于这项工作的主要兴趣是比较各种交叉算子的泛化能力，所有三种GP方法都只有交叉算子。没有任何变异算子参与。实现LGX的两个关键参数M和K的取值，分别表示库中小规模树的最大深度和最近邻树的数量，其值遵循文献[ 9 ]中的建议。
在这里插入图片描述
总体而言，三种GP方法在六个基准上都得到了检验。每种方法在每个基准问题上执行100次独立运行。

6 Conclusions and Future Work

本文提出了一种角度感知的匹配方案来选择用于几何语义交叉的父代，该方案利用父代与目标输出的相对语义之间的夹角来选择父代。提出的 ALGX 对具有大角度的父代执行，使连接父代的片段接近目标输出。因此，ALGX 可以产生性能更好的子代。为了研究和证实所提出的 ALGX 的有效性，我们在 6 个广泛使用的符号回归基准问题上运行 GP 使用的 ALGX，并将其性能与 GPLGX 和 GP 进行比较。实验结果证实，GPALGX 不仅具有更好的训练性能，而且在所有测试集上的泛化能力都显著优于 GPLGX 和 GP。

尽管 ALGX 带来了性能上的提升，但它通常比 GPLGX 计算开销更大。在未来的研究中，我们旨在改进角度检测过程。代替使用确定性方法迭代计算两个个体之间的夹角，我们可以引入一些启发式搜索方法来寻找最佳的父代对以减少计算成本。我们还希望探索 ALGX 的进一步应用，例如将角度感知引入到其他形式的几何交叉中，如精确几何语义交叉 [12] 和近似几何交叉 [7]，以考察它们的有效性。此外，这项工作只涉及交叉而不涉及变异。角度感知对变异的影响以及交叉和变异的使用也是有趣的课题。

References

Chen Q, Xue B, Mei Y, et al. Geometric semantic crossover with an angle-aware mating scheme in genetic programming for symbolic regression[C]//Genetic Programming: 20th European Conference, EuroGP 2017, Amsterdam, The Netherlands, April 19-21, 2017, Proceedings 20. Springer International Publishing, 2017: 229-245.