论文分析——动态异构图注意神经结构搜索

最新推荐文章于 2024-08-26 08:31:38 发布

ASEpochs

最新推荐文章于 2024-08-26 08:31:38 发布

阅读量1.4k

点赞数 5

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/m0_52597077/article/details/132462885

版权

论文分析——动态异构图注意神经结构搜索

标题	Dynamic Heterogeneous Graph Attention Neural Architecture Search
作者	Zeyang Zhang1, Ziwei Zhang , Xin Wang, Yijian Qin , Zhou Qin, Wenwu Zhu
机构	Tsinghua University, Alibaba Group
邮箱	{zy-zhang20,qinyj19}@mails.tsinghua.edu.cn
论文	https://zw-zhang.github.io/files/2023_AAAI_DHGAS.pdf

本文创新点：

1.动态异构图的动态异构图注意力搜索（DHGAS）方法

2.本地化空间和参数化空间

3.多阶段可微的搜索算法

摘要

动态异构图神经网络（DHGNNs）已被证明在处理普遍存在的动态异构图方面具有有效性。然而，现有的 DHGNNs 是手工设计的，需要大量的人力投入，并且无法适应各种不同的动态异构图场景。在本文中，我们提出自动设计 DHGNN 的方法，面临两个主要挑战：1）如何设计搜索空间以共同考虑图中的时空依赖关系和异构交互；2）如何在潜在的庞大且复杂的搜索空间中设计高效的搜索算法。为了解决这些挑战，我们提出了一种新颖的==动态异构图注意力搜索（DHGAS）==方法。我们的方法可以自动发现最优的 DHGNN 架构，并在不需要人工指导的情况下适应各种动态异构图场景。具体而言，我们首先提出了一个统一的动态异构图注意力（DHGA）框架，使每个节点能够共同关注其异构和动态邻居。基于这个框架，我们设计了一个本地化空间，确定应该在哪里应用注意力，以及一个参数化空间，确定注意力应该如何参数化。最后，我们设计了一个多阶段可微分的搜索算法，以高效地探索搜索空间。在真实世界的动态异构图数据集上进行的大量实验表明，我们提出的方法在诸如链接预测、节点分类和节点回归等任务中明显优于最先进的基线方法。据我们所知，DHGAS 是第一个动态异构图神经架构搜索方法。

总结分析摘要:

先简要说明DHGNNs存在的现状: 在处理普遍存在的动态异构图方面动态异构图神经网络（DHGNNs）具有一定的效果，但其为手工设计需要大量的人力，并且无法适应各种不同的异构图场景。

然后说明存在的挑战问题：1）如何设计一个搜索空间同时考虑图中的时空依赖关系和不同类型节点之间的交互。2）如何在复杂和庞大的搜索空间中设计高效的搜索算法。

接着提出我们的方法和此方法的优点：作者提出一种叫作**动态异构注意力搜索（DHGAS）**的新方法。可以在不需要人工的情况下自动发现最优的动态异构图神经网络结构，并适应不同动态异构图场景。

进一步说明DHGAS方法：首先提出名为动态异构图注意力（DHGA）框架，允许每个节点同时关注异构和动态的邻居节点；并在框架的基础上，设计一个本地化空间，确定哪里使用注意力，以及一个参数化空间，确定注意力如何参数化；最后，设计一个多阶段可微分搜索算法，高效率的寻找合适的搜索空间。

最后实验论证：作者进行大量实验，使用真实世界的动态异构图数据集，实验结果表明作者提出的方法在链接预测、节点分类、节点回归等任务中优于最先进的基线方法。

专业名词解释：

搜索空间：搜索空间（Search Space）是指模型架构和参数的所有可能组合的集合。搜索空间是在模型设计过程中可以进行搜索和选择的各种可能性，包括网络层的类型、层数、神经元的数量、激活函数、连接方式等。搜索空间的大小和结构会影响模型的表现和性能。
时空依赖关系：这指的是图中节点和边之间可能随着时间和空间位置的变化而产生的依赖关系。
异构交互：这表示不同类型的节点和边之间的相互作用，因为异构图中的节点和边可以代表不同的实体和关系。
动态异构图（Dynamic Heterogeneous Graph）：一个包含不同类型节点和边，且随着时间推移节点和边可能发生变化的图结构。异构表示不同类型的节点和边具有不同的属性和关系。

1 介绍

动态异构图在现实世界的应用中非常普遍，包括社交网络、电商网络、学术引用网络等。与静态同质图相比，动态异构图包含更丰富的异构信息，如节点和边的类型，以及随时间变化的图结构等动态信息。对于动态异构图的应用，如预测未来的连接、节点标签和属性，异质性和时间演化模式的建模至关重要。

动态异构图神经网络（DHGNN）（Hu等，2020；Fan等，2022；Xue等，2020；Li等，2020）最近在_{挖掘图动态和异构信息}方面取得了显著进展（Huang等，2021；Fan等，2021；Luo等，2020）。尽管取得了成功，现有的DHGNN都是手工设计的，因此存在以下问题：（1）DHGNN架构的设计需要大量的人力和专业知识。（2）由于手工设计的模型具有固定的架构，它们无法适应不同的动态异构图场景。（3）现有的DHGNN架构相对独立地考虑了异构和动态信息，未能最优地模拟异构和动态信息的联合和复杂交互。

在本文中，我们提出使用神经架构搜索（NAS）自动设计动态异构图上的DHGNN架构。NAS在自动化机器学习中引起了相当大的关注，并在计算机视觉等领域取得了成功（Wistuba、Rawat和Pedapati，2019；Elsken、Metzen和Hutter，2019）。然而，为动态异构图定制NAS方法是复杂的，并且面临以下两个挑战：

如何设计适当的搜索空间，以共同考虑图中复杂的时空依赖关系和异构交互？
如何在可能庞大且复杂的搜索空间中设计一个定制的高效搜索算法，以适应动态异构图？

为了解决这些挑战，我们提出了一种新颖的动态异构图注意力搜索（DHGAS）方法。我们的方法可以自动定制最优的DHGNN架构，并适应各种动态异构图场景。具体而言，我们首先提出了统一的动态异构图注意力（DHGA）框架。通过将经典的邻域扩展为动态异构邻域，并在节点和边类型感知的参数化下应用注意力，使模型能够同时考虑不同时间戳上的异构邻居。其次，我们基于DHGA框架提出了一个本地化和参数化搜索空间。本地化空间确定了我们应该将注意力应用于哪些关系类型和时间戳，可以定制动态异构邻域中的连接。参数化空间进一步确定了计算注意力的函数以及哪些类型的节点、边和时间戳应共享相同的参数化，可以定制动态异构邻域中的映射函数。我们展示了我们提出的搜索空间是通用且灵活的，可以涵盖许多经典的DHGNN架构作为特例。此外，它还允许搜索算法在性能和计算资源之间进行权衡。最后，我们提出了一个多阶段可微的搜索算法，以有效地探索搜索空间。通过将本地化和参数化空间中的离散选择放松为连续选择，我们的方法可以以可微的方式联合优化架构选择和超网络权重，从而快速准确地估计架构候选的性能。为了稳定训练过程，我们进一步提出了以多阶段的方式训练超网络，并基于阶段依次搜索空间。

在5个真实世界的动态异构图数据集上进行的大量实验表明，我们提出的方法在链接预测、节点分类和节点回归等任务中明显优于手工设计和自动化的最新基准方法。详细的消融研究进一步验证了我们提出的搜索空间和搜索策略的有效性。代码已公开发布。

总之，我们的工作贡献如下：
我们提出了适用于动态异构图的动态异构图注意力搜索（DHGAS）方法。据我们所知，DHGAS是第一个针对动态异构图的神经架构搜索方法。
我们基于我们的统一动态异构图注意力框架，为动态异构图设计了本地化空间和参数化空间。我们展示了我们提出的空间包含了代表性的手工设计架构作为特例。
我们为动态异构图提出了一个多阶段可微的搜索算法，能够有效高效地探索我们提出的搜索空间。
在真实世界的数据集上进行的大量实验表明，我们的方法在性能上优于最先进的手工设计和自动化基准方法。

思考：

多阶段可微的搜索算法其实在之前的很多论文都有提及，是否是一个创新点，或者说是一个小创新？

2 符号和预备知识

2.1 动态异构图（Dynamic Heterogeneous Graphs）

考虑一个图 $G$ 其节点集合为 $V$ ，边集合为 $E$ 。节点与类型映射函数 $\emptyset n$ ：V → $C_n$ 相关联，边与类型映射函数 $\emptyset e$ ：$\varepsilon $→ $C_e$ 相关联，其中 $C_n$ 和 $C_e$ 分别表示节点类型集合和边类型集合。以及边类型集合。我们对动态异构图给出如下的形式定义：

定义1 动态异构图被定义为 $\mathcal{G}=\left(\left\{\mathcal{G}^{t}\right\}_{t=1}^{T}, \phi_{n}, \phi_{e}\right)$ ，其中 T 是时间戳的数量， $\mathcal{G}^{t}=\left(\mathcal{V}^{t}, \mathcal{E}^{t}\right)$ 表示时间戳 t 上的图切片， $\mathcal{E}=\bigcup_{t=1}^{T} \mathcal{E}^{t}$ ，且 $\left|\mathcal{C}_{n}\right|+\left|\mathcal{C}_{e}\right| \geq 2$ 。

动态异构图是一种用于表示现实世界应用中的关系数据的通用数据格式。例如，静态图和同质图可以通过设置 $T = 1$ 和 $\left|\mathcal{C}_{n}\right|+\left|\mathcal{C}_{e}\right|=2$ 来分别看作动态异构图的特殊情况。

总结：

上述内容描述动态异构图的定义和特性：

图的基本元素：

节点集合 $V$ ：表示图中所有的节点。
边集合 $E$ ：表示图中所有的边。
节点与类型映射函数 $\emptyset n$ ：将每个节点映射到其对应的节点类型。
边与类型映射函数 $\emptyset e$ ：将每条边映射到其对应的边类型。

动态异构图的定义：

动态异构图被定义为一个包含多个时间戳的图序列 $\mathcal{G}=\left(\{\mathcal{G}^{t}\}_{t=1}^{T}, \phi_{n}, \phi_{e}\right)$ ，其中 $\mathcal{G}^{t}$ 是时间戳 $t$ 上的图切片。
每个图切片 $\mathcal{G}^{t}$ 包含节点集合 $\mathcal{V}^{t}$ 和边集合 $\mathcal{E}^{t}$ ，表示在该时间戳下的节点和边。
总的边集合为 $\mathcal{E}=\bigcup_{t=1}^{T} \mathcal{E}^{t}$ ，即所有时间戳上的边的集合。
要求节点类型集合 $\mathcal{C}_{n}$ 和边类型集合 $\mathcal{C}_{e}$ 至少包含两个类型，即 $\left|\mathcal{C}_{n}\right|+\left|\mathcal{C}_{e}\right| \geq 2$ 。

动态异构图的特殊情况：

动态异构图是一种通用的数据表示格式，可以包含静态图和同质图作为其特殊情况。
当 $T = 1$ 且 $\left|\mathcal{C}_{n}\right|+\left|\mathcal{C}_{e}\right|=2$ 时，表示静态图。
当时间戳数量 $T$ 为多个且类型数量 $\left|\mathcal{C}_{n}\right|+\left|\mathcal{C}_{e}\right|$ 大于等于2时，表示动态异构图，能够更好地描述关系数据的变化和复杂性。

动态异构图是在时间上演化且包含不同类型节点和边的图结构，可表示多样化的关系数据，从静态图到复杂的动态变化。

2.2 动态异构图神经网络（Dynamic Heterogeneous Graph Neural Networks）

通常，图神经网络（GNN）采用信息传递机制（Gilmer等，2017；Hamilton，Ying和Leskovec，2017），其中每个节点从其邻居中汇总信息。具体来说，假设 $h_u$ 是节点u的表示。信息传递型GNN通过以下方式更新节点表示：

$\mathbf{h}_{u} \leftarrow \operatorname{Update}\left(\mathbf{h}_{u}, \operatorname{Agg}\left(\left\{\operatorname{Msg}\left(\mathbf{h}_{v}\right): v \in \mathcal{N}(u)\right\}\right)\right. (1)$

其中 $\mathcal{N}(u)=\{v:(u, v) \in \mathcal{E}\}$ 表示节点u的邻居， $\operatorname{Msg}(\cdot)$ 从邻居节点 $\in N(u)$ 中提取信息， $\operatorname{Agg}(\cdot)$ 汇总邻域信息， $Update(\cdot)$ 更新节点表示。异构GNN通过为 $\operatorname{Msg}(\cdot)$ 、 $\operatorname{Agg}(\cdot)$ 和 $Update(\cdot)$ 函数分配不同的参数，进一步考虑图的异构性。信息传递函数如下：

$\mathbf{h}_{u} \leftarrow \operatorname{Update}_{\phi(u)}\left(\mathbf{h}_{u}, \operatorname{Agg}_{r}\left(\left\{\operatorname{Msg}_{r}\left(\mathbf{h}_{v}\right): v \in \mathcal{N}_{r}(u), r \in \mathcal{C}_{e}\right\}\right),\right.(2)$

其中 $\mathcal{N}_{r}(u)=\left\{v:(u, v) \in \mathcal{E} \wedge \phi_{e}(u, v)=r\right\}$ 表示带有关系类型r的节点u的邻域。

动态异构图神经网络（DHGNN）基于**公式（2）**进一步探索动态图中的时间信息。例如，相对时间编码（Hu等，2020）将时间信息编码到边中，即 $\mathcal{E}^{\prime}=\operatorname{Encode}\left(\left\{\mathcal{E}^{t}\right\}_{t=1}^{T}\right)$ ，然后进行异构信息传递。另一类DHGNN采用基于序列的模型，从不同的时间片段汇总信息，即 $\mathbf{H}=\operatorname{Seq}\left(\left\{\mathbf{H}^{t}\right\}_{t=1}^{T}\right)$ ，其中 $\mathbf{H}^{t}$ 表示时间戳t的节点表示，H是最终的节点表示。显然，这些现有方法以固定形式相对独立地处理异构和动态信息。相比之下，我们提出的方法可以联合聚合空间-时间异构信息，并自动适应不同的动态异构图场景。

总结：

现有的方法在处理动态图时通常相对独立地处理异构性和时间信息，缺乏对二者联合建模的能力.

作者提出的方法在动态异构图中联合聚合空间-时间异构信息，不仅考虑节点和边的类型差异，还自动适应不同的动态异构图场景，进而提高了网络的表现能力。

2.3 神经架构搜索（Neural Architecture Search）

神经架构搜索（NAS）的目标是寻找最优的神经网络结构，可以被表述为一个双层优化问题（Elsken、Metzen和Hutter 2019；Wistuba、Rawat和Pedapati 2019）：

在这里插入图片描述

其中A是架构搜索空间， $W (a)$ 是给定架构a的参数空间， $W^{*} (a)$ 是架构a的最优权重。在本文中，我们定制了一个搜索空间，包括注意力定位和参数化，以及一个适用于动态异构图的多阶段可微搜索算法。

总结：

NAS目标是寻找最优的神经网络结构，作者定制了一个搜索空间，包含注意力定位和参数化，以及适用于动态异构图的多阶段可微搜索算法。

思考：

一篇顶刊会议还需要对一些基本的公式进行解释说明吗？而且还是一个小章节专门介绍动态异构图、动态异构图神经网络、神经架构搜索。

3 提出的方法

3.1 动态异构图注意力

我们提出的动态异构图注意力（DHGA）框架的关键思想是通过基于注意力的信息传递机制，统一空间-时间聚合，并联合集成来自邻域的动态和异构信息。我们首先扩展了邻域的定义。

定义2 动态异构邻域：对于每个节点u的邻域，我们使用下标表示关系类型，上标表示时间戳，即：

在这里插入图片描述

在轻微地滥用符号的情况下，我们使用 $N (u)$ 来表示动态异构图中所有时间戳的所有类型邻居，即：

在这里插入图片描述

接下来，我们介绍我们定制的信息传递框架，以捕捉动态异构邻域信息，从而更新节点表示。遵循注意力机制（Vaswani等，2017年），对于时间戳t中的节点u及其邻居 $v∈N_{r}^{t'} (u)$ ，我们使用一组映射函数计算查询-键-值（Query-Key-Value）向量：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tdS6Eyy8-1692803988532)(DHGANAS.assets/image-20230814232155038.png)]

其中， $h_{u}^{t}$ 表示时间戳t中节点u的表示，q、k、v 分别表示查询、键和值向量， $F_{q}^{N}(·)$ 、 $F_{k}^{N}(·)$ 、 $F_{v}^{N}(·)$ 分别表示相应的节点映射函数。在本文中，我们采用小型全连接神经网络来实例化所有的 $F^{N}(·)$ 。注意，函数中的下标表示我们基于节点类型和时间戳采用不同的函数，即具有不同参数的函数。然后，我们使用映射函数 $F^{R}(·)$ 在查询和键向量上计算u和v之间的注意力分数：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ooOE8w9b-1692803988532)(DHGANAS.assets/image-20230814232208586.png)]

其中， $∆ t = t - t^{'}$ ，即关系映射取决于时间戳的差异而不是绝对值。受到HGT（Hu等，2020年）和RGCN（Schlichtkrull等，2018年）的启发，我们采用关系感知投影来实例化 $F^{R}(·)$ ，即：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RXSn2BRb-1692803988532)(DHGANAS.assets/image-20230814232313856.png)]

其中， $Wϕe(u,v),∆t ∈ R^{d×d}$ 表示特定边类型和时间戳的可学习参数，d 是维度。最后，我们使用softmax函数对注意力分数进行归一化，并聚合所有邻域，即：

在这里插入图片描述

请注意，我们可以轻松地将我们的方法扩展到多头注意力（Vaswani等，2017年）中，以稳定训练过程并提高模型的表达能力。出于简洁起见，我们省略了详细的公式。

总结：

本部分介绍了动态异构图注意力（DHGA）框架的构建思想、动态异构领域的定义、信息传递框架以及扩展性能。该框架可更好的处理动态异构图中的信息传递和关系建模，提高图神经网络在时间和异构性方面的性能。

总之，我们可以通过一个DHGA层跨越所有时间戳中不同类型的邻域共同聚合信息。与先前将空间和时间信息分开聚合的方法相比，我们提出的方法可以捕捉更加灵活的异构空间-时间图结构。此外，我们明确考虑了不同类型的关系，即节点映射函数 $F^{N}(·)$ 中的节点类型和关系映射函数 $F^{R}(·)$ 中的边类型，以及通过设置不同的参数来考虑不同的时间戳。因此，我们提出的DHGA可以学会自适应地分配不同的注意力分数，以处理不同的动态异构图应用。

尽管DHGA在建模动态异构图方面具有灵活性和表达能力，但基于DHGA进行架构搜索的天真方法在解决公式（3）中的双层优化时可能会产生较高的复杂性。接下来，我们将介绍我们定制的搜索空间和搜索算法，以降低复杂性并保持模型的表达能力。

总结：

先介绍DHGA（动态异构图注意力）层的优势:

可以跨越所有时间戳中不同类型的邻域，共同聚合信息。
DHGA方法提供了更灵活的能力来处理异构空间-时间图结构。
DHGA考虑了不同类型的关系，允许在节点映射函数 $F^{N}(·)$ 和关系映射函数 $F^{R}(·)$ 中分别设置不同的参数，可以针对不同的时间戳调整参数。可自适应地为不同的关系、时间戳和节点分配注意力，以适应不同的动态异构图应用。

接着介绍DHGA在建模动态异构图时虽然具有灵活性和表达能力，但进行架构搜索时具有较大的复杂性。后文提出作者定制的搜索空间和搜索算法。

专业名词解释：

时间戳（Timestamp）：动态异构图中，时间戳用于标识不同的时间点，用于区分图中不同时间下的数据信息。每个时间戳代表图在某一时刻的状态，其中包含节点和边的信息。

聚合信息：在图神经网络中，节点通常与其邻居节点相互交互以获取信息，并将这些信息汇总为新的节点表示。这个过程称为信息聚合。

异构空间-时间图结构：表示图中存在不同类型的节点和边，同时还存在时间信息，即图在时间上的变化。

节点映射函数：将节点映射到向量空间中的表示。DHGA中的节点映射函数 $F^{N}(·)$ 用于为节点计算查询、键和值向量。

关系映射函数：将边（关系）映射到表示的函数。DHGA中关系映射函数 $F^{N}(·)$ 用于计算节点之间的注意力分数。

注意力分数：表示信息传递过程中不同节点之间的重要性。DHGA中通过计算注意力分数来调整不同节点的信息聚合权重。

思考：

我认为这段不严谨或者是没有体现本章节的内容。本段作者的目的应该是介绍动态异构图注意力框架的优点，然后使用一些公式进行推理说明，但是这些公式之间的撰写并没有体现出提出的动态异构图注意力框架有哪些优点，没有说明这些公式的使用如何提升了DHGA层，更多的是简单的进行公式说明。（可能是我自己没有读懂吧）

3.2 注意力定位与参数化搜索空间

在第3.1节中介绍的我们提出的DHGA的完整版本在所有类型的邻居和所有时间戳之间计算注意力。虽然这是最具表现力的架构，但计算成本也很大。为了稀疏注意力并实现更轻量级和高效的架构，我们基于完整的DHGA提出了定位空间和参数化空间。

思考：

作者提出的定位空间和参数化空间在一方面是为了实现轻量级，那么轻量级能否实现解决模型的轻量化呢？

定位空间：确定在哪里应用注意力。
首先，我们引入了定位空间，它决定了应该在哪些类型的边和时间戳上计算注意力。具体而言，我们将定位空间表示为:

在这里插入图片描述

表示节点u在时间戳t的表示是否应该在信息传递中关注其邻居 $N_{r}^{t'}(u)$ 。因此， $A^{Lo}$ 完全确定了注意力函数的应用位置。

请注意，我们提出的定位空间是通用且灵活的，因为它可以涵盖许多现有架构作为特例。例如，完整的DHGA相当于ALo的每个值都等于1。它还可以涵盖其他架构，包括GAT（Veliˇckovi´c等，2018年）、时间自注意力（Fan等，2022年）、掩蔽时间自注意力（Xue等，2020年；Sankar等，2020年）、支持跳连接的恒等映射等（请参阅附录获取详细对应关系）。

除了通用和灵活之外，我们还通过使用定位空间极大地降低了复杂性。具体来说，很容易看出完整的DHGA具有线性时间复杂度。

$O\left(\sum_{t=1}^{T} \sum_{t^{\prime}=1}^{T} \sum_{r \in \mathcal{C}_{e}}\left|\mathcal{E}_{r}^{t \prime}\right|\right)=O\left(T^{2}\left|\mathcal{C }_{e}\right| \max _{1 \leq t \leq T, r \in \mathcal{C}_{e}}\left|\mathcal{E}_{r}^{t}\right|\right)(10)$

相比之下，使用 $\mathbf{A}^{L o}$ 的时间复杂度为：

$O\left(\sum_{t=1}^{T} \sum_{t^{\prime}=1}^{T} \sum_{r \in \mathcal{C}_{e}} \mathbf{A}_{t, t^{\prime}, r}^{L o}\left|\mathcal{E}_{r}^{t^{\prime}}\right|\right)=O\left(\left|\mathbf{A}^{L o}\right| \max _{1 \leq t \leq T, r \in \mathcal{C}_{e}}\left|\mathcal{E}_{r}^{t}\right|\right)(11)$

其中， $A^{Lo}|$ 表示 $A^{Lo}|$ 中非零值的数量。通过限制 $A^{Lo}|$ 的大小，我们可以将DHGA的时间复杂度降低为与时间戳数目T和关系类型数目 $C_e|$ 无关。

总结：

本部分在动态异构图注意力（DHGA）框架中引入"定位空间"，其可以在何种类型的边和时间戳上计算注意力，降低了时间复杂度。

解释说明：

定位空间：指决定在图中什么部位应该集中注意力的机制。空间由矩阵 $A^{Lo}$ 表示，它确定在信息传播期间，是否应该将注意力应用于给定节点在特定时间戳的邻居节点上。
通用性和灵活性：引入的定位空间具有是通用、适应能力强的特点，涵盖了许多现有架构作为特例。包括了类似图注意力网络（GAT）、时间自注意力和掩蔽时间自注意力等现有模型。
与传统DHGA的比较：段落强调了使用提出的定位空间（ $A^{Lo}$ ）和传统DHGA方法之间的时间复杂性比较。使用定位空间显著降低了时间复杂性。
通过 $A^{Lo}|$ 降低复杂性：通过管理 $A^{Lo}|$ 矩阵的大小进一步控制复杂性。限制该矩阵中非零值的数量，使得DHGA方法不受时间戳和关系类型数量的影响。

思考

1.什么是定位空间？

定位空间指的是一个矩阵 $A^{Lo}$ ，表示在信息传递过程中，什么样的时间戳、节点和边类型被考虑和关注，用于确定注意力函数的应用位置。

参数化空间：如何对注意力进行参数化。
为了减少参数的数量，我们提出了一个参数化空间来搜索如何计算注意力函数。具体来说，我们将参数化空间表示为 $A^{Pa} = A^N × A^R$ ，其中 $A^N = {({1, ...,K_N})}^{T×|C_n|}$ 是节点映射函数 $F^N(·)$ 的参数化矩阵， $A^R = ({1, ...,K_R})^{2T×|C_e|}$ 是关系映射函数 $F^R(·)$ 的参数化矩阵， $K_N$ 和 $K_R$ 是两个超参数。简而言之，我们将 $F_N(·)$ 的 $K_N$ 映射函数和 $F_R(·)$ 的 $K_R$ 映射函数存储为原型,每个注意力函数可以从相应的原型中选择。具体来说，令 $A^N ∈ A^N$ 。 $A_{t,c}^N=k$ 时，表示节点u的映射函数，其中 $ϕ n (u) = c$ 且时间戳为t，即 $F_{q,c,t}^N (·)$ 、 $F_{k,c,t}^N (·)$ 、 $F_{v,c,t}^N (·)$ 应该从 $F^N(·)$ 的所有原型中选择第k个函数。类似地，对于 $A^R ∈ A^R$ ， $A_{∆t,c}^R=k$ 表示关系映射函数，对 $F_{∆t,c}^R$ 于关系 $ϕ e (u, v) = c$ ，应该为 $F^R(·)$ 选择第k个原型。

使用参数化空间，我们提出的方法可以灵活地确定哪些映射函数，包括节点映射函数和关系映射函数，应该共享参数。直观地说，一些节点类型、关系类型或时间戳共享相似的模式，因此可以在不影响性能的情况下享受参数共享。由于这些模式可能取决于特定的动态异构图数据集和任务，我们建议自适应地搜索和学习这些模式，而不是手动设置参数共享规则。

与定位空间类似，参数化空间是通用的，涵盖了多种现有架构。例如，当 $K_N = T×|C_n|$ 和 $K_R = 2T×|C_e|$ 时，我们可以为每个函数搜索一个唯一的原型向量，并恢复完整的DHGA。当 $K_N = 1$ 且 $K_R = 1$ 时，我们恢复了现有的基于同质注意力的图神经网络。

使用参数化空间，我们可以减少可学习参数的数量。很容易看出，完整的DHGA的可学习参数数量为 $O(T(|C_n|+|C_e|))$ 。使用参数化空间，我们可以将其减少为 $O(K_N +K_R)$ 。当将KN和KR限制为常数时，可学习参数的数量也是一个常数，即与边的数量|E|、时间戳数目T，以及节点和边类型的数目 $C_n|$ 和 $C_e|$ 无关。

简而言之，定位空间和参数化空间通过确定计算注意力时的边类型和时间戳以及注意力的参数化，平衡了模型复杂性和模型表达能力。

总结：

本部分讨论参数空间的概念，他在动态异构图注意力框架中的应用。文章解释了如何通过参数化控制注意力计算，减少参数复杂性，增强模型的灵活性。

参数空间：

在DHGA框架中，引入参数空间确定如何计算注意力函数。用于减少参数数量并提高模型的效率。
参数空间表示为两个矩阵的乘积， $A^N$ 和 $A^R$ ，分别为控制节点和关系映射函数的参数。

$A^N$ 存储节点映射函数的原型， $A^R$ 存储关系映射函数的原型。超参数 $K_N$ 和 $K_R$ 决定原型的数量。

节点和关系映射：

节点映射函数 $F^N(·)$ 和关系映射函数 $F^R(·)$ 通过矩阵 $A^N$ 和 $A^R$ 进行参数化。
对于特定的节点类型和时间戳，根据存储在 $A^N$ 中的原型索引，选择要使用的映射函数。

对于关系类型和时间戳，使用 $A^R$ 中的索引选择映射函数。

通过参数化实现灵活性：

参数化空间通过确定哪些映射函数应该共享参数，从而获得灵活性。
具有相似模式的节点、关系或时间戳可以共享参数，从而提高模型的效率。

普适性和兼容性：

参数空间适用于各种架构。当设置某些超参数时，该框架可以表示各种现有的图神经网络架构。
超参数的不同配置使方法能够捕捉各种图结构和关系。

降低参数复杂性：

与完整的DHGA模型相比，引入参数化空间显著降低了可学习参数的数量。
参数数量变为 $O(K_N +K_R)$ ，降低了计算复杂性。

思考：

关系映射是什么？

关系映射是在图结构中的边或关系被转化为向量表示的过程。

3.3 多阶段可微分搜索

基于我们提出的定位空间和参数化空间，我们引入了我们提出的搜索策略。将整个搜索空间表示为 $A = A^Lo × A^Pa$ 。很容易看出，该空间最多可以包含 $2^{T^2|C_e|}K_N^{T|C_n|}K_R^{2T|Ce|}$ 个可能的选择，这是一个相当大的数量，实际上无法枚举所有可能的选择。为了减少搜索复杂性，我们首先对搜索空间提出启发式约束，以排除无效或无效的架构，然后采用单次神经架构搜索算法来加速搜索过程。

总结：

将定位空间和参数化空间的概念相结合，可高效的在庞大的搜索空间中确定最优体系结构，以适用于图注意力机制。

空间约束。受到蒙板式时间自注意力（Xue等，2020；Sankar等，2020）的启发，我们限制搜索到的定位空间要尊重图片的时间顺序，即时间戳为t时节点u的表示只能从时间戳 $t' \leq t$ 的邻域 $N_r^t′ (u)$ 接收消息。这个约束有明确的解释，因为在实际中，使用未来信息来预测当前情况是不可行的。此外，我们添加了另一个约束，即 $A_t^{Lo} | ≤ K_{Lo}，1 ≤ t ≤ T$ ，其中 $K_{Lo}$ 是一个超参数。通过这种方式，我们约束了每个时间片的注意力连接的稀疏性并降低了复杂性，如第3.2段所示。假设映射函数在时间域中具有连续性，我们进一步将时间片划分为连续的块，其中一个块内的函数共享相同的参数。最后，我们约束架构的最后一层仅包含与最后时间片T的连接，以便我们可以将这些表示用于下游任务。

在搜索空间中引入了两个约束，以限制搜索范围并降低复杂性。

第一个约束是关于时间顺序的，即节点的表示只能从过去的时间节点接收信息。

第二个约束了每个时间片的注意力连接的稀疏性，通过参数共享的方式降低复杂性。

超网构建。根据最近NAS的进展（Liu，Simonyan和Yang 2019；Xie等2018；Guo等2020），我们通过超网将公式（3）中的双层优化转化为一个一次性NAS问题：由于超网包含了A中的每个可能架构a，因此可以使用超网中相应的权重快速评估其性能。具体而言，在超网中，特定操作的分类选择被松弛为在所有可能操作上的softmax：

$\bar{F}(x)=\sum_{i=1}^{|A|} \frac{\exp \left(\beta_{i}\right)}{\sum_{j=1}^{|A|} \exp \left(\beta_{i}\right)} F_{i}(x)$

其中x是输入，F¯(x)是输出， $∣ A ∣$ 表示可能操作的数量， $β_i$ 表示第i个可能函数 $F_i(·)$ 的混合权重。

对于定位空间，操作指示是否应用注意力函数。对于参数化空间，操作表示不同的节点/关系原型映射函数。使用超网，我们可以以可微分的方式共同优化混合权重β和映射函数中的所有参数：

在这里插入图片描述

其中 $η_β$ 和 $η_w$ 分别是模型权重和架构权重的学习率。

总结：
将架构搜索问题转化为一个一次性神经架构搜索问题的步骤。通过构建超网，将搜索空间中的每个可能的架构映射到相应的权重，并在超网上进行快速评估。

多阶段超网训练。为了稳定超网的训练，我们将训练过程分为三个阶段：节点参数化、关系参数化和定位。在节点参数化阶段，我们将注意力位置强制为全连接，并且强制关系映射函数共享相同的参数化，并专注于搜索节点映射函数。在关系参数化阶段，我们选择并固定节点参数化空间中的选择，并专注于搜索关系映射函数。类似地，在定位阶段，我们专注于在定位空间中进行搜索，同时固定其他两个空间中的选择。训练完成后，通过离散化操作选择，我们获得了一个最优的架构。

总结：

为稳定超网的训练，作者将整个训练过程分成三个阶段。每个阶段都专注于不同的参数化空间，包括节点参数化、关系参数化和定位空间搜索。通过逐步固定空间中的选择，训练过程变得更加稳定

思考：

什么是节点参数化、关系参数化？

图神经网络或类似的架构中，节点表示网络中的实体。节点参数化是为每个节点设计合适的特征变换函数或映射函数。

图神经网络中，关系表示节点之间的连接、依赖或交互关系。关系参数化是确定如何对连接进行建模，以便在图数据中捕获节点之间的信息传递和关联。

在这里插入图片描述

图1：我们提出的动态异构图注意力搜索（DHGAS）模型的框架。对于给定的具有多个节点和边类型以及时间片的动态异构图，DHGAS可以基于统一的动态异构图注意力（DHGA）框架定制最优架构。特别地，DHGAS在关注参数化空间和关注定位空间上进行多阶段的可微架构搜索，其中包含几个精心设计的约束。在定位空间中，我们搜索应计算哪些类型的边以及哪些时间戳的关注。在参数化空间中，我们搜索关注函数应如何参数化。

4 实验

在本节中，我们通过链接预测、节点分类和节点回归等任务来评估所提出的方法。我们将静态同质图神经网络（例如GCN、GAT）、静态异质图神经网络（例如RGCN、HGT）以及动态异构图神经网络（例如DyHATR、HGT+、HTGNN）作为手动设计的基准线进行了比较。此外，我们还与最先进的静态同质图神经架构搜索方法GraphNAS（Gao等人，2020）和异构图神经架构搜索方法DiffMG（Ding等人，2021）进行了比较。有关实验设置的更多详细信息可以在附录中找到，包括数据集、基准线、训练协议、超参数、任务设置、损失函数等内容。

总结：：

作者通过链接预测、节点分类、节点回归任务进行方法评估。并与多种基准线进行比较。

思考：

1.基准线是什么？

基准线（Baseline）是在研究中作为比较标准或参照的一组方法、模型或技术。为了评估新提出的方法或技术的性能，通常会将其与现有的已知方法进行比较，以便确定其相对优劣和效果。而已知的方法就是基准线。

2.异构图神经架构搜索方法DiffMG？

DiffMG采用了一种基于梯度的搜索策略，使用梯度信息来指导搜索过程，以便找到适用于异构图的神经网络架构。

4.1 主要结果

链接预测。首先，我们在两个数据集上进行链接预测任务的实验：一个是学术引用数据集Aminer（Ji等，2021），另一个是推荐数据集Ecomm（Xue等，2020）。结果如表1所示。我们得出以下发现：（1）DHGAS在这两个数据集上都取得了最佳结果，与最有竞争力的基线相比，AUC（曲线下面积）分别提高了约2.5%和4%。结果表明，DHGAS能够通过定制最适合的架构来有效地处理动态异构图数据集上的链接预测任务。（2）DiffMG报告了相当不错的结果，并且在大多数手动设计的异构方法之上表现出色，这表明自动设计神经网络架构的重要性和潜力。然而，DiffMG与我们提出的DHGAS之间仍然存在很大的性能差距，尤其是在Ecomm数据集上。我们将这种差异归因于我们的方法能够有效地联合捕获时态和异构信息，而DiffMG仅模型化了异构信息。（3）总的来说，对异构和时态信息进行建模都对提升手动设计基线的性能至关重要。例如，采用相对时间编码技术的HGT+在Aminer上报告了第二好的结果。然而，HGT+无法处理Ecomm数据集，甚至比HGT还表现不佳。这些结果再次验证了不同数据集可能需要不同的GNN架构，并且手动设计的方法可能无法适应如此多样的应用场景。

在这里插入图片描述

表格1：不同任务（包括链接预测、节点分类和节点回归）的各种方法的综合结果。评估指标在括号中，↑（↓）表示更高（更低）的值表示更好的结果。最佳结果以粗体显示，次佳结果以下划线表示。“-” 表示该方法不适用。

总结：

作者分别对于两个不同的数据集进行实验：学术引用数据集Aminer、推荐数据集Ecomm。通过链接预测任务的实验，体现了DHGAS方法在处理动态异构图数据集上的性能优越性，并强调了异构和时态信息对于提升图神经网络性能的重要性。

思考：

1.AUC（Area Under the Curve）：评估二元分类模型性能的指标之一，代表ROC曲线下的面积。用于测量在不同阈值下真正例率与假正例率之间的平衡。

2.时态信息（Temporal Information）：图中节点或边的时间信息，即它们的存在或关系发生的时间。在动态图中，节点和边可能随着时间的推移发生变化。

3.异构信息（Heterogeneous Information）：表示图中包含不同类型的节点和边，每种类型可能具有不同的属性或含义。

4.文中的AUC和MAE是什么意思？

AUC用于衡量链接预测任务中分类模型的性能，而MAE用于衡量节点回归任务中预测模型的性能。

AUC（Area Under the Curve）： 一种广泛用于分类任务的评价指标，在二元分类中常用。AUC代表了ROC曲线（Receiver Operating Characteristic）下的面积，ROC曲线是以不同分类阈值为基础的真正例率（True Positive Rate）与假正例率（False Positive Rate）之间的关系图。AUC的值介于0到1之间，值越高表示分类器具有更好的性能。在链接预测等任务中，AUC用于衡量分类器预测的准确性。

MAE（Mean Absolute Error）： 回归任务中常用的评价指标，用于衡量预测值与真实值之间的平均绝对误差。MAE计算预测值与真实值之间的差距，并取其绝对值，最后对所有样本求平均值。MAE的值越小表示预测值与真实值越接近，即模型的预测误差越小。

节点分类。接下来，我们在两个数据集上比较了不同的方法，用于节点分类任务：一个是商业评论数据集Yelp（Ji等，2021），另一个是电子商务风险管理数据集Drugs3。从表1中也可以看到结果，我们得出以下观察结果：（1）我们提出的方法DHGAS再次在两个数据集上报告了最佳结果，将宏F1分数提高了3%以上。结果表明，我们可以通过使用DHGAS自动设计架构来有效地处理动态异构图上的节点分类任务。（2）自动化的基线DiffMG和手动设计的动态异构方法HGT+在Yelp和Drugs上报告了第二好的结果，显示了NAS的有效性以及捕获动态异构信息的重要性。然而，虽然它们在相对于DHGAS的性能差距方面仍然相当大，但未能将两者结合起来。

节点回归。对于节点回归任务，我们采用了流行病数据集COVID-19（Fan等，2022）。我们在表1中报告了结果，并观察到以下发现：（1）与其他两个任务类似，DHGAS再次取得了最佳性能。结果表明，DHGAS可以自适应地处理异构动态图的各种应用。（2）对于这个任务，手动设计的动态基线（即DyHATR和HTGNN）明显优于静态方法，显示出建模时间信息对于预测COVID-19病例至关重要，这与文献一致。（3）尽管没有考虑动态信息，DiffMG再次展现出竞争性能，说明了NAS方法的巨大潜力。 DHGAS可以通过我们定制的搜索空间和动态异构图的搜索算法充分利用这些潜力。

总结：

作者在节点分类和节点回归任务上对不同的方法进行实验比较，分别使用商业评论数据集Yelp和电子商务风险管理数据集Drugs3以及流行病数据集COVID-19。

节点分类任务：

DHGAS表现优越：作者提出的DHGAS方法在两个数据集上都取得了最佳的结果，将宏F1分数提高了3%以上。
自动化和手动设计方法：自动化的基线DiffMG和手动设计的动态异构方法HGT+在Yelp和Drugs3数据集上报告了第二好的结果。体现了神经架构搜索（NAS）方法的有效性以及捕获动态异构信息的重要性。（作者提出的方法真的好吗？没有找到源码无法复现实验）

节点回归任务：

DHGAS取得最佳性能：DHGAS在节点回归任务上展现了最佳性能。表明DHGAS可以适应不同类型的应用，包括节点回归任务。
手动设计的动态基线：手动设计的动态基线方法（即DyHATR和HTGNN）在节点回归任务上表现明显优于静态方法。这显示出建模时间信息对于预测COVID-19病例是至关重要的，这与先前的文献结果一致。
DiffMG展现潜力：尽管DiffMG没有考虑动态信息，但在节点回归任务中表现了不错竞争性能。表明NAS方法的巨大潜力。

专业名词解释：

DyHATR：DyHATR是一种手动设计的动态异构图神经网络方法。，"Dy"表示动态，“HATR"是"Hybrid Attention Time-aware Representation”（混合注意力时态感知表示）的缩写。这个方法的设计目标是处理动态异构图，同时考虑时间信息和异构关系。可能包含关于如何处理时间信息、异构关系和节点表示的设计决策。
HTGNN：HTGNN代表"Hybrid Temporal Graph Neural Network"，是一种手动设计的方法，用于处理动态图数据。它将图神经网络的方法与时间信息相结合，以更好地建模动态图中的节点和关系的变化。
DiffMG：DiffMG代表"Differentiable Meta-Graph"，是一种自动化的方法，用于动态图的元图学习。这是一种神经架构搜索（NAS）方法，可以自动学习适用于动态图数据的元图结构。元图结构指的是图神经网络中的不同图层和连接方式。DiffMG通过在训练过程中自动搜索适用于任务的元图结构，从而提高性能。

4.2 消融研究

搜索空间。为了测试我们提出的定位空间和参数化空间的有效性，我们将完整版本与两个消融版本进行了比较：“去除时态的DHGAS”和“去除时态和异构的DHGAS”。前者删除了在不同时间片中的任何注意力定位，而后者进一步强制该方法对所有类型的节点和边使用相同的参数化。为简单起见，我们仅在设置空间约束超参数KLo为20和40时，报告了在Aminer数据集上的结果，而其他数据集和设置显示了类似的模式。图3显示，去除定位空间中的时态连接和异构参数化将降低搜索模型的性能。结果验证了DHGAS在我们定制的搜索空间中利用时态和异构信息的有效性。

搜索算法。我们验证了我们提出的多阶段超网训练的设计。我们将DHGAS与基于我们提出的搜索空间的随机搜索和DARTS（Liu，Simonyan和Yang 2019）进行了比较。我们在Aminer数据集上报告了结果，当选择定位约束超参数KLo为{4、8、10、20、40}时，而其他结果显示出类似的结论。如表4所示，我们提出的搜索算法在所有定位约束下均优于DARTS和随机搜索。特别是当KLo增大时，所有方法的性能都会提高，显示出效率和有效性之间的明显权衡。当KLo较小时，即紧密的定位约束，DHGAS可以自动搜索重要的注意力位置并保持令人印象深刻的性能。相比之下，随机搜索和DARTS在这些情况下表现不佳。

在这里插入图片描述

图3：在Aminer数据集上进行的有关定位空间和参数化空间割离研究结果（以AUC%表示）。

图4：使用DHGAS搜索空间在Aminer数据集上对搜索算法的比较结果（以AUC%表示）。

总结：

搜索空间：作者通过实验验证提出的定位空间和参数化空间具有一定效果，以及他们设计的搜索算法的性能。

作者通过两个消融版本进行比较，即"去除时态的DHGAS"和"去除时态和异构的DHGAS"，测试他们提出的定位空间和参数化空间的有效性。前者删除了不同时间片中的注意力定位，后者进一步强制对所有类型的节点和边使用相同的参数化。实验结果显示，去除定位空间中的时态连接和异构参数化会降低搜索模型的性能。定制的搜索空间具有一定的效果。

搜索算法：通过实验验证，作者提出的多阶段超网训练搜索算法在不同定位约束下表现出优越的性能，优于现有的DARTS方法和随机搜索。这进一步证实了作者提出的搜索算法在动态异构图上的有效性和性能。

4.3 附加分析

搜索架构的效率。图5显示，随着我们逐渐增加计算预算KLo，DHGAS可以获得性能更好的架构。结果显示，DHGAS可以搜索适合数据集的架构，同时平衡计算预算和模型性能。
在这里插入图片描述

图5：在Aminer数据集上，比较在不同计算预算KLo下搜索到的架构，以推理时间和性能为指标。DHGAS(k)表示使用预算KLo = k的DHGAS方法。

搜索架构的可视化。图2可视化了在KLo = 8时在Aminer上搜索的架构，其中字母和数字分别表示节点类型和时间，颜色表示节点和关系映射函数的选择。它验证了DHGAS可以灵活地定制定位和映射函数，证明我们的方法可以自动化DHGNN的设计，节省处理图的异构性和动态性所需的人力。更多结果和可视化见附录。

在这里插入图片描述

本篇论文在2023-6-06出版，更多的结果再附录部分，我也没有看见附录部分啊，在网上也没有找到源码复现（太菜了）

5 相关工作

动态异构图神经网络。图结构数据在现实世界中无处不在（Wu等，2020；Zhou等，2020；Zhang，Cui和Zhu，2020；Li等，2022a,b,c,d，2021a,b；Zhang等，2022c）。为了推广GNN在同质图中的成功，已经有大量研究关注于异构GNN（Yang等，2020；Wang等，2022；Schlichtkrull等，2018；Zhang等，2019；Wang等，2019；Fu等，2020；Hu等，2020）。一些工作尝试考虑动态信息（Skarding，Gabrys和Musial，2021；Zhu等，2022；Yang等，2021；Zhang等，2022b；Sankar等，2020；Wang等，2021；Xu等，2020；Rossi等，2020），并研究动态异构图（Kazemi等，2020；Xue等，2022,2020；Barros等，2021；Yuan等，2020；Hu等，2020；Fan等，2022）。尽管这些现有方法取得了成功，但它们都是手工设计的，具有固定的架构。此外，空间和时间信息相对独立地处理。相比之下，我们提出的方法可以同时关注动态和异构邻域，并自动适应各种动态异构图任务和数据集。

图神经网络架构搜索。为了自动化GNN的设计，图神经网络架构搜索在过去两年中引起了越来越多的关注（Zhang，Wang和Zhu，2021），包括基于强化学习的方法（Gao等，2020年；Zhou等，2019年；Qin等，2021a,2022b年；Zhou等，2022年；Guan等，2021年），基于进化学习的方法（Nunes和Pappa，2020年；Li和King，2020年；Shi等，2022年；Guan，Wang和Zhu，2021年；Guan等，2022年；Zhang等，2022a年），基于贝叶斯优化的方法（Hou等，2021年）和可微方法（Zhao等，2020年；Huan，Quanming和Weiwei，2021年；Li等，2021c年；Cai等，2021年；Qin等，2021b,2022a年）也已被研究。然而，所有上述工作都集中在静态同质图上。与我们的工作更相关的是，DiffMG（Ding等，2021年）和HGNAS（Gao等，2021年）提出使用元路径（Sun等，2011年）来区分节点和边类型，从而搜索异构GNN架构。然而，它们无法捕捉动态图中的时间信息。此外，AutoSTG（Pan等，2021年）提出了为同质时空图搜索GNN架构的方法，忽略了异构交互。

总之，==现有的图神经网络架构搜索方法不能充分捕捉现实动态异构图中的复杂空间-时间信息。==据我们所知，我们提出的DHGAS是第一个定制的动态异构图神经网络架构搜索方法。

6 结论

在本文中，我们提出了一种新颖的动态异构图注意搜索（DHGAS）方法，以自动化DHGNN的设计。我们提出了一个统一的动态异构图注意框架，以共同考虑节点的异构和动态邻居。基于该框架，我们设计了一个定位空间来确定应该在哪里应用注意力，以及一个参数化空间来确定应该如何参数化注意力。我们进一步设计了一个多阶段可微分的搜索算法，以高效地探索搜索空间。对真实世界的动态异构图数据集进行的大量实验表明了我们方法的优越性。