2020，CEC，Instance Selection for Geometric Semantic Genetic Programming

青年有志

已于 2024-01-09 11:36:35 修改

阅读量467

点赞数

分类专栏：符号回归文章标签：机器学习算法人工智能

于 2023-04-08 14:55:22 首次发布

本文链接：https://blog.csdn.net/qq_46450354/article/details/130026256

版权

符号回归专栏收录该内容

42 篇文章 12 订阅

订阅专栏

在这里插入图片描述

Abstract

几何语义遗传规划 (Geometric Semantic Genetic Programming，GSGP) 是一种在 n 维语义空间中利用描述问题可能解之间空间关系的几何性质的方法。在符号回归问题中， n 等于训练实例的个数。虽然 GSGP 的语义空间非常有效，但在大多数实际应用中，GSGP 的语义空间会变得过大，n 值过高，对 GSGP 搜索过程的有效性产生负面影响。本文通过实例选择方法降低符号回归问题中 GSGP 语义空间的维度来解决这个问题。我们的方法依赖于加权函数 – 根据每个实例相对于其最近邻的位置来估计其相对重要性 – 以及降维技术 – 来改进实例之间的紧密度概念，生成具有简化输入空间的数据集。在一组 15 个数据集上进行了实验，实验分析表明通过实例加权和降维进行实例选择确实提高了搜索的有效性，并且对均方根误差结果几乎没有影响。

I. INTRODUCTION

数据回归是最流行的机器学习任务之一 [1]。给定一组训练案例，每个案例由一组输入和一个标量输出描述，回归任务诱导一个能够将输入映射到输出的模型。在进化计算领域中，符号回归方法已经得到了广泛的研究，并在解决各种问题方面取得了成功[2]。与其他回归模型不同的是，符号回归同时定义了函数的形状和参数，其中待诱导函数的形状是事先定义的(例如线性的)并且其参数是优化的。

与其他任何回归方法一样，符号回归需要输入一组样本来学习回归函数，即训练集。通常人们认为训练集越大越好，由回归方法诱导的模型越好。但事实并不总是如此。在一些数据集中，输入空间的某些区域可能被过度覆盖，而其他区域可能缺乏代表性。这会导致由学习方法诱导的回归模型仅在这些过表达区域上表现良好，从而降低其泛化能力。在这种情况下，从这些密集区域中移除实例可以改进诱导模型，使回归模型考虑具有相似兴趣的整个输入空间 [3]. 此外，通过移除实例使训练集更小可以减少用于诱导回归模型的计算量，从而帮助在学习过程中花费的计算时间至关重要的应用程序。

遵循这种实例选择的思想，本文探索了其在另一种场景下的使用和优势：减少几何语义遗传规划 (GSGP) [4]中语义空间的维度数，用于符号回归。GSGP 是一个遗传编程 (Genetic Programming，GP) 框架，它引入了能够通过句法操作诱导已知语义效应的几何语义算子。GSGP 中候选解的语义捕捉了其考虑问题情境的行为。在符号回归问题中，给定解的语义被定义为它所表示的函数应用于训练集时产生的输出向量[5]。

该定义允许将解的语义表示在一个 n 维空间中，称为语义空间，其中 n 对应训练集的大小。GSGP 所使用的遗传算子利用该空间的几何结构来搜索使关于给定度量定义的适应度函数最小的解。适应度值与解和目标输出向量之间的距离成正比 – 也在语义空间中表示 – 根据采用的度量。因此，通过减少训练集的大小，语义空间的维度数也随之减少，导致搜索空间变小，从而可以更简单地进行探索。

本文的主要目标是评估通过减少训练样本的数量，从而减少语义空间的维数，是否可以改进 GSGP 执行的搜索，使搜索更加简单和高效。在文献 [6] 的初步分析中，我们使用了从数据分类文献中改编的实例选择方法，并表明搜索空间大小的减少可以为 GSGP 执行的搜索带来有益的影响。

遵循这一思路，本文提出了一种不同的实例选择方法 (instance selection)：对数据实例进行加权。我们提出使用 4 个权重函数来估计每个实例相对于其 k 个最近邻的相对重要性。这些加权函数与 4 种降维技术结合在一起，我们认为这 4 种降维技术对improve the notion of closeness between instances，用简化的输入空间生成数据集。结果表明，该方法构建的实例子集能够捕获数据集的底层结构，使得 GSGP 能够更快地诱导具有相似质量的回归模型。

本文余下部分的结构安排如下。第二节介绍了 GSGP 的主要概念。第三节回顾了相关工作，第四节描述并评估了我们在 GSGP 中减少搜索空间大小的策略。最后，第五节给出实验结果，第六节得出结论并给出未来工作的方向。

II. GEOMETRIC SEMANTIC GENETIC PROGRAMMING

最近 GP 的工作表明，程序的语义在进化过程中可以起到至关重要的作用 [7]。探索这一场景，研究人员提出了多种方法，这些方法使用语义感知的操作符，能够引导搜索到搜索空间中更有前途的区域，提高了获得更好解决方案的机会。与定义由个体表示的程序的结构的语法不同，语义描述了这种结构的行为。

遵循语义空间的概念，Moraglio 和他的同事 [4] 提出了一个新的 GP 框架，能够操纵具有几何含义的个体在语义空间中的句法。该框架称为几何语义 GP (Geometric Semantic GP，GSGP)，它直接搜索程序的底层语义空间，从而产生一个单峰的适应度景观 – 它可以被进化算法优化，对于几乎任何度量都有很好的结果 [8]。GSGP 提出的几何语义交叉和变异算子利用语义意识和几何形状来描述父代和子代之间的空间关系，在语义空间中产生精确的几何性质。

GSGP 个体的语义被定义为一个维度与训练实例数量相当的空间中的一个点，这意味着几何语义算子受到语义空间维度增长的影响 [6]。因此，通过减少实例的数量，自动降低语义空间的维度数，进而降低搜索空间的复杂度。搜索空间的复杂程度越小，可能的组合数越少，可能会提高收敛到最优的速度。

III. RELATED WORK

尽管实例选择 (Instance Selection，IS) 方法的重要性在分类和回归任务中都得到了认可，但将 IS 应用于回归问题的工作数量仍然远远少于将 IS 应用于分类(文献对这些技术进行了全面的综述,文献研究了 IS 如何提高不平衡数据集的分类精度)的工作。

回归 CNN (Reg CNN) 和回归 ENN (Reg ENN) [11] 采用凝聚最近邻 (Condensed Nearest Neighbour, CNN) 和编辑最近邻 (Edited Nearest Neighbour, ENN) 方法用于回归域分类问题中的实例选择。这两种方法都是通过分析每个实例与邻居的比较来估计它们的重要性。RegCNN 和 RegENN 通过基于误差的比较来代替它们的分类版本中使用的标签比较。RegCNN 和 RegENN 不是通过比较 k- NN 分类器预测的标签和期望的标签来做出决策，而是将回归方法预测的输出和期望的输出之间的误差比较到一个阈值，从而决策删除 (RegENN) 或保留 (RegCNN) 实例。文献 [12] 将 Reg CNN 和 Reg ENN 方法重命名为 Threshold ENN (TENN) 和 Threshold CNN (TCNN)，并与一种离散化方法进行了比较，该方法将实例的连续输出转换为代表其标签的离散值，然后应用原始的 ENN 和 CNN 来选择实例。

在文献 [6] 中，我们评估了在数据预处理(即 TENN 和 TCNN)中用于 GSGP 中实例选择的方法，并提出了基于误差的概率实例选择 (Probabilistic instance Selection based on the Error，PSE)，该方法集成到 GSGP 进化中，从原始训练集中选择一个实例子集 – 以用户定义的频率 – 以与该实例在当前种群中的中值绝对误差成正比的概率。结果表明，与 PSE 相比，TENN 和 TCNN 在该任务中的 RMSE 表现较差。然而，PSE 的主要缺点是进一步增加了 GSGP 诱导回归模型所需的计算时间。因此，研究其他对回归方法计算时间影响较小的预处理策略仍具有重要意义。

在这个方向上，本文提出的方法是基于实例加权的。我们借鉴了文献 [13] 的工作，其中作者引入了一个框架来自动为实例分配权重，该框架考虑了实例的相对重要性。然而，我们不使用 GP 算法的规范版本，而是分析这些权重对 GSGP 执行搜索的语义空间的影响。他们使用 4 种加权方案对该框架进行评估，定义了一个实例相对于输入空间中 k 个最近邻的 proximity, surrounding, remoteness, and nonlinear 的重要性。他们通过两种不同的方式来探索它们的框架：(i) 使用规范 GP 的适应度函数中的权重，赋予每个实例在最终适应度值上的不同重要性；(ii) 从训练集中选择一个子集，由度量值最高的实例组成。对于前一种方法，他们开发了一个简单的程序，将数据划分为任意大小的平衡嵌套子集，称为简单多维迭代下采样技术 (SMITS)。本文提出的预处理实例选择策略是在前一种方法的基础上提出的，第四节对此做了进一步的说明。

IV. STRATEGIES FOR REDUCING THE SIZE OF THE SEARCH SPACE

本部分提出了一种处理实例选择的方法：根据实例在搜索空间中的重要性为每个实例分配权重，然后根据权重选择实例的子集。我们首先介绍了我们使用的四种权重度量：proximity, surrounding, non-linearity and remoteness[13]。考虑到这些度量是在一个非常高的维度空间中计算的，我们还研究了在每个实例的原始特征空间中使用四种降维技术来改进权重的计算方式。这些技术有：主成分分析 (PCA)、Isomap 映射、多维尺度分析 (MDS) 和 t 分布随机近邻嵌入 (t-SNE)。

使用实例权重选择实例的思想是基于这样的假设：输入空间中实例的集中程度对包括基于 GP 的方法在内的回归方法执行的训练阶段具有至关重要的影响。该假设来源于这样一个事实，即用于指导 GP 执行的搜索的误差度量赋予每个实例相同的权重。因此，具有较高实例浓度的输入空间的区域会偏向搜索，因为适应度函数会给在这些密集区域上表现良好的个体提供更好的奖励。

图 1 给出了这种行为的一个例子。考虑 [-1.5 , 4.5] 中输入空间均匀分布的 60 个点组成的训练集 $\mathcal{T}$ ，图中用圆(填充和空)表示。值得注意的是，区间 [-1.5, - 0.5] 和 [1, 4.5] 虽然在输入空间中具有相同的实例分布，但与区间 (-0.5 , 1) 相比，在输出空间中具有更密集的实例分布。为了使输出空间中的分布更加均衡，我们从 T 中选取子集 S，用填充圆表示。红色和蓝色曲线分别表示以 T 和 S 为训练集的 GP 所诱导的函数。红色曲线在稠密区域收敛到使误差最小的常数，而蓝色曲线能够捕捉原函数的变化趋势。

在这种情况下，实例选择方法是有用的，因为它们可以防止只在实例密度较高的区域上创建性能良好的模型, 此外，它们还具有在不降低精度的情况下减少运行时间的潜力。我们感兴趣的是能够识别输出空间 w.r.t. cases 在同一区域内变化较小的实例的方法。这些实例可以从训练集中移除，从而得到一个较小的集合，其中输入空间中的实例分布更好地反映了输出空间中的变化。

A. Weighting Process 加权过程

我们首先介绍本文余下部分所使用的符号。给定输入训练集 $\mathcal{T} = \{I_1，I_2，. . .，I_n\}，I_i = (x_i , y_i)∈\Bbb{R}^d × \Bbb{R}，x_i = [ x_{i1} , x_{i2} , ... , x_{id}]，i = { 1，2，. . .，n }$ ，其中 $n$ 为训练集的规模， $d$ 为输入空间的维数。给定向量 $u∈\Bbb{R}^d$ 的输入空间中的 p-范数，定义为：

用于计算给定实例 $I_i - N_i = \{N_{i1}，N_{i2}，. . .，N_{ik}\}$ - 的 $k$ 个最近邻对应的 $\mathcal{T}$ 的子集，以及它的关联集 $\mathcal{A}_i = \{I_j | I_i∈ \mathcal{N}_j ~ for ~ j∈ \{1，2，. . .，n\} ~and ~ i ≠ j \}$ —— i e 即在它们的 $k$ 个最近邻中具有 $I_i$ 的实例。我们在所有实验中使用 p = 2。

作者在文献 [14] 中引入了 The proximity function $γ$ ，试图通过度量实例到其 $k$ 个最近邻的平均距离来估计实例的孤立程度：

然而，the proximity function 没有考虑实例与其邻居之间的相对方向。因此，类似于图 3 所描述的情况将无法用这个度量来区分。这种信息可以通过周围函数 $δ$ 捕捉，它试图通过测量向量从 $I_i$ 指向其 $k$ 个最近邻点的平均长度来识别响应面边界上的实例，即不被其邻点均匀包围的实例：

图 3：由于周围函数也考虑到邻居的方向，当邻居位于同一方向时，它会分配更高的权重值。

$k$ 的选择会影响数据的感知：较小的 $k$ 值会增加度量值的局部影响，而较大的 $k$ 值会导致更大的全局影响。在确定实例的邻居和关联时，只考虑输入空间。

为了说明 surrounding function 是如何工作的，我们将其应用于图 1 所示的实例集。结果如图 2 所示，其中每个实例的大小与其权重成正比。

图 1：不平衡数据集示例及实例选择方法对回归的影响。
图 2：从图 1 中对训练集应用周围函数得到的权重。

The nonlinearity function $ν$ 试图强调非线性变化的区域，定义为实例 $I_i$ 到通过其 $k$ 个最近邻的最小二乘超平面的距离：

其中 $x_{Π_i}$ 是超平面 $Π_i$ 上 $x_i$ 经过输入空间 $I_i$ 的 $k$ 个邻域的正交投影.

最后一个权重函数, remoteness ( $ρ$ ) 将实例 $I_i$ 的权重定义为其邻近度的平均值与周围权重的秩：

上面提出的加权函数允许我们根据推断的重要性对实例进行排序。令 $w$ 为其中一个加权函数。向量 $[w(I_1 , \mathcal{N}_1 , k) , w(I_2 , \mathcal{N}_2 , k) , ... , w(I_n, \mathcal{N}_n , k)]^T$ 是考虑到 $T$ 的 $k$ 个最近邻，将 $w$ 应用到每个实例中得到的。通过对实例按照其权重进行排序，我们得到一个排序 $R^{(w)}$ ，其中 $R^{(w)}_i$ 是该排序中实例 $I_i$ 的索引。

B. Input Space Dimensionality Reduction

在实际应用中使用的大多数数据集 – 以及在我们的实验中 – 代表了一个复杂的高维输入空间。最后一节提出的加权函数严重依赖于每个实例与其最近邻之间的紧密度的概念，这在高维空间中可能是欺骗性的。作为缓解这一潜在问题的尝试，以及对数据集的一些洞察，我们在执行实例选择过程之前应用降维技术。

降维方法允许我们将高维数据集转换到二维或三维空间中，低维表示中实例之间的距离尽可能反映高维数据集中实例之间的相似性。

通过在实例选择过程中融入降维方法，我们期望增强实例间邻接关系的感知，最终提高权重函数产生的值的重要性。我们使用以下降维技术将包含四个或多个属性的所有数据集的输入属性嵌入到二维输入空间中：

主成分分析 (Principal Component Analysis，PCA) [15]：利用正交变换将一组可能相关变量的观测值转换为一组线性不相关变量的值，称为主成分。
Isomap Mapping [16]：寻求保持所有点之间测地距离的低维嵌入。
多维尺度分析 (Multi-dimensional Scaling，MDS) [17]：寻求距离与原始高维空间中的距离相对应的数据的低维表示。
t-分布随机邻域嵌入(t-distributed Stochastic Neighbour Embedding, t-SNE ) [18]：将数据点的亲密度转化为概率。原始空间中的相似度用高斯联合概率表示，嵌入空间中的相似度用 Student’s t-distributions 表示。图 4 展示了应用 t-SNE 技术后，energy-cooling 数据集的一种表示方法，其中考虑到实例的输出值，该方法能够在实例之间建立明确的区分。

C. Selection Process

我们采用了算法 1 中提出的基于 SMITS 过程的实例选择方法 [13]。它以一个训练集 $\mathcal{T}$ 、一个加权函数和 5 个控制变量为自变量，根据实例带给所选子集的新信息量的大小选择输出一组实例 $\mathcal{S}$ 。该算法首先在第 1 行创建一个包含 $\mathcal{T}$ 中每对实例之间距离的矩阵 $D$ 。注意，距离的计算只考虑输入空间，因为如果我们还包括输出空间，它们之间的距离可能会引起误导。在第 3-6 行中，算法为每个实例构建其初始邻居集和关联集(即把实例作为其 $k$ 个最近邻之一的实例)。在第 9~13 行，算法根据给定的权重函数 $w$ 、距离度量 $L$ 和邻居数 $k$ 对所有实例进行迭代排序。它通过寻找权重最低的实例并将其注册到一个排序数组中开始每次迭代。该实例在此之后不得不被忽略，这是由它的权重设置为 $\infty$ 所迫。之后，算法更新 $k$ 个最近邻(第 13 行)中存在 $I_l$ 的实例的权重。算法在第 15 行创建有选择实例的集合 $\mathcal{S}$ 后终止，即根据创建的排序从 $\mathcal{T}$ 中选择实例子集。子集的大小由参数 $s$ 定义。

算法 1 所花费的时间取决于每个实例的实例数 $n$ 、维度数 $d$ 和邻居数 $k$ 。在算法 1 的第二行，我们计算了距离矩阵，这需要 $O(n^2d )$ 次运算。邻近函数和周围函数需要所有的 $k$ 个邻居，如果我们对邻居进行排序，可以在 $O (kn)$ (在期望线性时间内使用 $k$ 次选择)或 $O (n l o g n)$ 中找到。在我们的实现中，我们选择了后一种方法，因为考虑到通常会使用较大的 $k$ 值。因此，the proximity and surrounding functions 的复杂性为 $O( n^2d + n^2max ( k , log n )))$ 。

对于 the nonlinearity function，确定逼近 $k$ 近邻的平面的过程需要求解 $k$ 个线性方程组，这使得非线性函数的复杂度等于 $O(nk^3)$ 。

V. EXPERIMENTAL ANALYSIS

我们使用了一组从UCI机器学习库[19]，GP benchmarks [20]和文献[21]，[22]中选取的15个数据集进行了实验，如表 1 所示。对于真实数据集，我们将数据随机划分为5个相同大小的不相交集合，并使用5折交叉验证(10 × 5 - CV)执行方法10次。对于合成数据集，我们根据其原始工作中定义数据集的方式，采用了两种不同的策略：非确定性采样函数生成的数据集重采样5次，每次采样(10 × 5-ND)，实验重复10次；实验采用确定性采样的数据集，重复50次，数据覆盖率为(50 × D)。采用相同的策略对训练集和测试集进行采样。最终，所有方法都执行了50次。在整个执行过程中，所使用的选择实例的集合保持不变。

表1：实验中使用的数据集。

所有的执行都使用了一个由1000个个体组成的种群，进化了250代，锦标赛选择大小为10。采用grow method[25]生成几何语义算子内部的随机函数，采用ramped half-and-half method[25]生成初始种群，两者最大个体深度均为6。终端集包括每个数据集的输入变量和从区间[-1、1]中随机挑选的常数值。函数集包括3个二进制算术运算子(+ , - , ×)和解析商(AQ) [26]。

我们采用了基于曼哈顿的适应度函数的交叉和概率为0.5的变异算子。变异算子所需的变异步长定义为给定训练数据输出的标准差的10%。我们使用均方根误差( RMSE )作为适应度函数。

为了避免属性值取值范围的差异导致数据加权过程偏向高取值范围属性，我们将 test bed 中所有数据集的输入和输出值缩放到区间[0、1]。然而，值得注意的是，尽管这些比例值被实例选择方法用来决定应该保留哪些实例，但最终得到的子集总是由原始训练实例组成。

A. Results of Weighting Functions

在这一部分中，我们重点研究了实例选择过程对GSGP执行搜索的影响。为了量化这种影响，我们使用两个指标：检验均方根误差(test RMSE) - -衡量所产生的回归模型的误差；执行时间( execute time-aiming ) - -评估选择过程是否真的降低了计算复杂度。

对于每个数据集，除了从训练集中移除的实例数量外，我们给算法提供了相同的参数集，导致训练集的大小相对于它们的原始大小从75%到99%不等。

我们使用前面介绍的四种权重函数构建的子集进行了实验。然而，由于ppb数据集具有比实例更多的属性，无法应用非线性函数。为了识别它们之间获得的总体准确性之间的显著差异，我们采用了Friedman with Nemenyi post-hoc test。我们在权重函数性能相等的原假设下进行了Friedman检验。然而，考虑到95%的置信水平，得到的p值(0.18)意味着我们不能丢弃原假设，因此没有权重函数可以认为比其他更好。因此，我们在本节中只给出了关于 the surrounding function 的结果，从而得到了最好的整体结果。实验对应的中位数测试RMSE值如表II所示，其中加粗显示的值对应的结果优于GSGP在完整实例集上得到的结果。

为了得到结果的直观概览，我们分析了测试RMSE值随移除实例数增加的百分比变化，如图5所示。观察发现，大多数行都在5%的变异范围内，这意味着对于大多数数据集，选择过程对GSGP所做的回归没有太大的影响。换句话说，压缩后的训练集成功地捕获了数据的底层结构。准确地说，对于15个数据集中的12个数据集，与使用原始和压缩数据集建立的模型相比，测试的RMSE值没有实质性的质量变化，因为对于任何选择水平，相应的RMSE变化都限制在[-5 % , 5 %]范围内。此外，与原始数据集相比，在15个数据集中的9个数据中，去除25%的训练实例后，我们观察到了负的RMSE变化。

对于合成数据集，我们观察到较差或没有定论的结果- -其中误差值似乎随着我们增加选择水平而任意增长或移动。对于 keijzer-6 and keijzer-7 datasets。这种行为可以解释为，我们使用了奇数邻域大小(5)，以便为只有一个输入属性的实例分配一个权重值，并且沿着单个维度平均分配。在这种情况下，分配给不在输入空间边缘的实例的初始权重肯定是有缺陷的。随着选择的进行，这一问题有减少的趋势，但并没有减轻。然而，如果邻域大小实际上是这些结果背后的唯一原因，那么当我们使用非线性函数时，这两个数据集的行为应该发生变化，因为对于它们我们使用了k = 2。然而，我们看到的是结果的随机性水平有所降低，但与其他数据集相比，误差值仍然表明结果很差。

同样有趣的是，这3个结果较差的数据集也是输入属性个数(一、二)最少的数据集。这可能表明，使用较低的邻域大小- -接近输入属性的数量- -会损害选择过程。综上，考虑随着我们移除的实例数量的增加(考虑一个实例是稳定的,如果它的RMSE变化不大于5% ,当我们改变移除的实例数)，得到的RMSE结果和数据集的稳定性。考虑 the surrounding function 更为合适。然而，注意到如果我们对稳定性的定义更加严格，并且考虑至多1%的误差变化，the surrounding, remoteness and nonlinearity functions 都有类似的结果。

为了验证GSGP的时间复杂度如何受到选择过程的影响，我们分析了GSGP所需的中位执行时间来为每个数据集创建回归模型。对 the proximity function 的分析如图6所示，并考虑了训练和测试阶段。总体而言，结果与我们的预期一致，尽管不如预期明显。合成数据集再次表现出矛盾的行为，无论移除的实例数量如何，执行时间基本上是恒定的。在选择过程中花费的时间相对较少(相应地,平均而言, GSGP推导其回归模型所花费的时间仅为1.8 %)。

B. Results considering Dimensionality Reduction Methods

在这一部分中，我们分析了应用输入空间降维方法作为选择过程的第一步是否改善了误差值。我们使用Isomap，MDS，PCA和t-SNE四种方法对所有维数≥3的数据集的训练实例进行降维。得到的嵌入用来决定在选择过程中移除哪些实例。然而，GSGP是在选定的实例及其原始输入属性数量下运行的，鉴于初步实验的结果表明，空间约简对其准确性有负面影响。

所有方法表现相似，由于空间限制，我们将自己限制在在RMSE改善方面具有最佳结果( t-SNE ,使用邻近函数)的方法。表3给出了在测试集中RMSE的中位数，按照50次执行，结果如图7所示。为了识别加权函数之间的显著差异，我们按照前文所述的方法进行了Friedman检验。由此得到的p值为5.7×10-4，意味着在置信水平为95%的情况下舍弃了原假设(证明了加权函数的性能是相等的)，从而可以分析Nemenyi事后检验的输出结果，如图8的临界差异图所示。邻近性和周围性功能显著优于非线性功能，与远距离性功能无统计学差异。其余两两比较差异均无统计学意义。

TABLE III：GSGP在使用t-SNE方法嵌入并使用邻近函数降低的训练集上得到的测试RMSE。

在本部分进行的实验结果之后，我们建议使用GSGP的实例选择方法，在实例选择过程中使用嵌入来最小化计算两个实例之间距离时维度灾难的影响。在功能方面，我们建议采用 the proximity or surrounding.

VI. CONCLUSIONS AND FUTURE WORK

在这项工作中，我们分析了实例选择方法对 GSGP 执行搜索过程的影响。经过一系列不同度量和降维方法组合的实验，我们表明，通过减少训练样本的数量，从而减少语义空间的维数，我们可以改进 GSGP 执行的搜索过程，使搜索更加简单和高效，进而使其能够更快地诱导出具有相似质量的回归模型。

从测试的所有方法和指标来看，我们建议在实例选择过程中使用特征选择，以尽量减少计算两个实例之间距离时维度诅咒的影响。关于权重函数，我们推荐邻近或周边函数。

未来的工作包括研究识别噪音实例的技术，以便在搜索过程中移除或最小化它们的重要性，然后将这些信息插入实例选择过程，以及分析权重语义空间维度的适应度函数的影响等。

References

Miranda L F, Otavio V B O L, Francisco B S M J, et al. Instance selection for geometric semantic genetic programming[C]//2020 IEEE Congress on Evolutionary Computation (CEC). IEEE, 2020: 1-8.

@inproceedings{miranda2020instance,
  title={Instance selection for geometric semantic genetic programming},
  author={Miranda, Luis Fernando and Otavio, VB Oliveira Luiz and Francisco, BS Martins Joao and Pappa, Gisele L},
  booktitle={2020 IEEE Congress on Evolutionary Computation (CEC)},
  pages={1--8},
  year={2020},
  organization={IEEE}
}