OOD-GNN: Out-of-Distribution Generalized Graph Neural Network

OOD-GNN: Out-of-Distribution Generalized Graph Neural Network

总结:使用独立性去除虚假相关性,使用全局和局部权值自适应的更新图表示,实现优化效率和权值的一致性的平衡。

挑战:

  • gnn融合了节点特征和图结构的异构信息,与非图数据去相关的线性情况相比,表示之间的复杂和未观察到的非线性依赖关系更难以测量和消除。

  • 样本重加权方法在小规模图上是可行的,但对于大规模的图数据,由于较高的计算复杂度和过度的存储消耗,一致地学习数据集中每个图的全局权重是有效率低的,甚至是不可行的

动机:.
1、现有的工作在很大程度上忽略了gnn的分布外泛化能力,这对在野外部署的现实应用程序至关重要
2、然而,大多数现有的方法只对不同大小的图进行测试,而忽略了更现实和更具有挑战性的设置,即分布变化出现在图的拓扑和节点特征中。
3、然而,在实践中,当训练图和测试图之间存在分布转移时,如何提高gnn的泛化能力在很大程度上是未知的。
4、然而,这些方法大多是在线性设置下提出的。线性样本重加权方法不能用于消除图数据去相关的非线性依赖关系。如果只消除表示之间的线性依赖关系,实验中就会有显著的性能下降。
5、解纠缠表示这些方法迫使表示被分解为向量,并可以改变图表示的语义含义。此外,由于解纠缠和性能之间的权衡困境[62],他们在下游任务上的结果可能会降低。

Step1:表示独立性,去相关
由于在没有额外监督的情况下很难区分相关和不相关部分,收集代价非常昂贵,因此鼓励图编码器消除图表示中所有维数的统计依赖性。令:
在这里插入图片描述
除非d足够小,否则不适用于使用基于直方图的度量值。因此引入希尔伯特-施密特独立准则(HSIC)https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/101400126
在这里插入图片描述
交叉协方差计算:
在这里插入图片描述
f,g是指两个傅里叶变换函数
在这里插入图片描述
使用重加权鼓励样本的独立性
在这里插入图片描述
通过最小化HSIC,消除表示之间的依赖性。迭代更新各组件参数
在这里插入图片描述

Step2:
但是直接计算Cz,z计算成本高,在大规模数据集上是不可行的。一种直接的方法是按批处理,但是,批次之间不共享参数,故使用可扩展的全局-局部权值估计其来实现优化效率和权值的一致性的平衡。使用全局权重保持整个数据集上可学习权值的一致性,而局部权值鼓励了在一个小批量上的图表示的不同维数的独立性。

全局权重
定义k组全局表示和相应的全局权重。
在这里插入图片描述
在这里插入图片描述

通过在训练过程中保存和共享全局表示和权重,提供了对整个训练数据集的全局汇总信息
局部权重
计算表示和初始化局部权重。
在这里插入图片描述
在这里插入图片描述

全局和局部进行组合
在这里插入图片描述
使用得到的Z和W计算交叉协方差Cz,z

对全局表示和权重进行动态更新:
在这里插入图片描述

  • 17
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Out-of-distribution是指在模型训练时未曾出现过的数据分布,也称为“未知数据”。在模型面对未知数据时,其预测结果可能会出现误差或不确定性。因此,对于模型的鲁棒性和泛化能力的提升,需要对out-of-distribution数据进行有效的识别和处理。 ### 回答2: out-of-distributionOoD)是指模型在测试阶段遇到了其训练数据集之外的样本或类别。当模型只使用特定的数据集进行训练时,它可能无法处理那些与训练数据不同的输入。这些新的样本可能是在颜色、形状、大小等方面与训练数据有所不同,也可能属于未在训练数据中出现过的类别。 遇到OoD样本的问题是模型的泛化能力不足。模型在训练数据中表示和学习的特征可能过于特定,无法推广到训练数据集之外的样本。这可能导致模型的预测不准确或不可靠。 为了解决OoD问题,有几种方法可以采取。一种常见的方法是收集更多来自OoD分布的样本,并将其添加到训练数据中,以使模型能够更好地学习如何处理这些新样本。另一种方法是使用一些先验知识或规则,对OoD样本进行检测和筛选,以避免对其进行错误预测。 同时,一些研究者提出了一些用于检测OoD样本的新颖性评估方法。这些方法通过利用模型在训练样本和OoD样本上的输出差异来判断一个样本是否属于OoD类别。这种方法可以帮助我们识别OoD样本,并采取相应的措施,以提高模型的泛化性能。 综上所述,解决out-of-distribution问题是训练一个具有较强泛化能力的模型的重要步骤。只有当模型能够有效处理新的样本和未见过的类别时,才能提高模型的可靠性和适用性。 ### 回答3: "out-of-distribution"是指数据集中没有包含的数据样本或样本类别。在机器学习和深度学习中,数据集通常用于训练和测试模型的性能。然而,在现实世界中,我们会遇到无法准确分类的新数据,这些数据就属于"out-of-distribution"。这可能是因为这些数据具有与训练数据不同的特征,或者因为数据集的覆盖范围有限。 "out-of-distribution"的出现可能会对模型的性能和鲁棒性产生负面影响。由于模型没有前面没有见过这些类型的数据,它可能会对其进行错误的分类或给出不确定的预测结果。这种情况在实际应用中特别重要,因为我们希望模型能够在各种不同的情况下表现得可靠和准确。 为了解决"out-of-distribution"问题,一种常见的方法是通过收集更多具有代表性的训练数据来增加数据集的覆盖范围。这样模型可以更好地学习不同类型的数据特征,并提高对"out-of-distribution"数据的泛化能力。另外,使用先进的模型架构和优化算法也可以增强模型的鲁棒性。 除了增加训练数据和改进模型架构外,还可以使用一些检测方法来识别"out-of-distribution"的样本。这些方法可以根据模型的置信度、预测熵或数据分布等特征来判断样本是否属于训练集之外的数据。这些方法可以帮助我们发现并处理那些可能造成模型失效的"out-of-distribution"数据。 总之,"out-of-distribution"是指在训练数据之外的数据样本或样本类别。对于机器学习和深度学习任务,了解和解决"out-of-distribution"问题是提高模型性能和鲁棒性的关键。通过增加训练数据、改进模型架构和使用检测方法,我们可以减少"out-of-distribution"带来的负面影响。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值