How Neural Networks Extrapolate:From Feedforward to Graph Neural Networks ICLR2021最高分论文解析

最新推荐文章于 2022-09-07 13:50:08 发布

置顶 hj_cheng29

最新推荐文章于 2022-09-07 13:50:08 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习文章标签：机器学习人工智能深度学习神经网络算法

本文链接：https://blog.csdn.net/qq_40604352/article/details/114998826

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

How Neural Networks Extrapolate:From Feedforward to Graph Neural Networks ICLR2021最高分论文解析

本篇论文由MIT的研究生keyulu Xu 继2020ICLR高分论文《What can neural networks reason about？》之后的又一力作，由于此篇论文大量的用到了上述论文的概念知识，所以这里贴出上篇论文的解析
What can neural networks reason about？解析

评审人所给的分数分别是[8, 9, 9, 7]，平均8.25分，是本次ICLR2021年最高分论文。
论文连接：论文地址

论文概述

这篇论文主要是在研究神经网络在梯度下降算法下的外推能力，也就是NN在学习了训练集分布后，在其余数据分布上拟合的能力。不过就从ReLU MLP来看，它的外推性只有当目标函数是线性函数且训练分布是各个方向的时候才有较好的外推性，其余情况下 MLP将会在训练数据之外很快的收敛为线性方程，不过GNNs却有着较好的外推性，作者通过实验对比MLP和GNNs在一些算法任务上学习的方程，提出了一些能够使神经网络能够较好地外推的方法。

ReLU MLP的外推性

在这里插入图片描述
作者发现，使用ReLU激活函数、过参数化的MLP在训练分布外，总是沿着从原点出发的各个方向都收敛为线性函数。
图中灰色部分是MLP需要学习的非线性函数，蓝色部分是MLP在训练分布内学得的结果，黑色部分是MLP在训练分布外的表现。
不过MLP能够在整个训练分布都为线性的情况下很好的外推。那么接下来我们来看看ReLU MLPs在目标函数使线性情况下外推的表现。

ReLU MLPs线性外推的表现

在这里插入图片描述
作者给出了MLP学习线性目标函数的示例（灰色部分是MLP需要学习的线性函数，蓝色部分是训练分布，黑色部分是MLP在训练分布外的表现）

假定数据分布定义在一个矩形区域内（蓝色部分），左一的原点在矩形区域内，此时训练数据自然是包含从原点出发的各个方向的，可以看出这时MLP外推效果较好；左二的原点在矩形的边上，那么从原点出发的红色箭头的反方向就没有训练数据，MLP外推开始出现了一些偏差；右二的原点在矩形的角上，MLP外推的偏差也较大；右一中，数据分布定义在一条经过原点的线上，使得训练分布之外的部分有明显的外推误差。

所以Linear target MLPs在什么情况下外推能力是很强的喃？通过上面的观察可以知道：当训练分布是包括了各个方向的时候外推能力强。

Tips：训练分布：训练集样本的feature方向分布，因为feature是向量，如果在特征空间中，训练集中各个样本的向量是指向各个不同方向的，就代表训练分布是all direction的，如果feature都是>0的那么训练分布就比较局限

为了更好的说明上述内容，这里作者又做了一个实验，ReLU MLP
在这里插入图片描述
从a)图可以看出，ReLU MLP在目标函数为线性的情况下拥有不错的外推能力。b)图all代表所有方向，fx1代表一个维度被固定，"neg d"代表有d个维度的值都是负数。

所以通过上述实验说明了：在目标函数为线性的情况下，当训练分布为各个方向的情况下时，MLP外推能力较好

MLP + 不同的激活函数

在看GNNs之前，我们先看看MLP和不同的激活函数，在不同任务中的表现
在这里插入图片描述
MPAE：误差
显而易见，当目标函数和激活函数非常相似的时候，MLP能够具有很好的外推性，这在Xu 2020年的那篇文章中首次提到，因为NN的结构和问题的解法alignment(对齐)了

GNNs的外推能力

GNNs在很多复杂任务中展现出很好的外推性，可以从作者2020年的那篇论文看出在Summary statistics, Relational argmax, Dynamic programming等问题中都有着很不错的推理能力。
举个栗子在这里插入图片描述
在最短路径问题中，前人就改变了GNNs的结构，将sum改为了min-aggregation，可以更好的进行外推

为什么换成min之后，GNNs就能很好的胜任最短路径问题了喃？

首先先给出一个直觉的解释，最短路径问题可以被Bellman-Ford算法解决(DP)

对比一下可以发现，如果GNNs中的MLP模块学习线性方程 d[k − 1][v] +w(v, u)，那么GNNs就是BF算法(也不能说就是把，非常像！)，并且MLPs能够很好的推理线性的任务，这样就使得GNNs和这个问题的解法"alignmeng"对齐了，这就是为啥min-aggregation GNNs能够在这个任务中很好的外推。

那咱不用直觉来解释，看看其中的数学上为啥min>sum 在这个任务中
min这个函数，在大多数情况下是一个非线性的函数，有可能不连续，并且大多数情况下是非线性函数。
如果咱GNNs用的是sum-aggregation，那么GNNs中的MLP就要去学习一个非线性方程，对吧，这对于MLPs来说非常难以外推。那如果我们就用min-aggregation的话喃，GNNs中的MLP就只用去学习一个线性方程 ： d[k − 1][v] +w(v, u)

这里又一次印证了Xu 2020年的论文《What can neural networks reason about？》中的alignment框架，我上篇博客也有讲解。对于其他任务为比如动态规划，在给定DP任务的情况下，如果我们可以在模型体系结构和输入表示形式中编码适当的非线性，以便MLP模块仅需要学习线性方程，则GNN可以很好地外推。

总结一手：这里就是将非线性编码至神经网络结构中了！这是本篇论文的一个核心。

在这里插入图片描述
作者将这个图片直接放在论文开头，导致我一开始看到这里是很蒙的，现在再来看就很清晰了。
a)是将非线性编码至NN结构中，刚好了DP算法对齐了。
b)是将非线性编码至输入中，就是在输入做一个变换将非线性融入到输入中，是剩下的g是一个”容易学习的方程“。
在这里插入图片描述
所以，我们可以根据这个发现去使得我们的神经网络能够更好的外推：我们可以将目标函数 f 分解为 f = g * h, 其中 h 是一个嵌入，g是一个更为简单的目标方程。如果我们能够从我们的已知的知识中去定义h，那么模型将只用学习g，或者h也可以通过训练分布之外的无标签数据的表示学习得到。这也许可以解释为什么像BERT这样的经过预训练的表示法可以提高分布外鲁棒性。

GNNs的其他探究

在这里插入图片描述
上图可以看出编码非线性结构或者表示对于内推帮助不大，但是对于外推提升很大，左图是编码非线性结构，右图是编码非线性特征。

紧接着作者又实验了在不同任务下图的结构对GNNs外推能力的影响
在这里插入图片描述
行达标平均误差MAPE，在a)图最大度任务中，如果Graph的最大/最小度没有被限制，那么GNNs可以很好的外推。b)在最短路径任务中，外推误差在训练图的稀疏度中呈一个U形(从上到下越来越density)

联系其他分布之外的设置

这里讨论几个相关的设置，以前的方法提升外推性通过：1）学习超出训练数据范围的有用非线性，以及2）将相关测试数据映射到训练数据范围。

Domain adaptation：是迁移学习中的一种代表性方法，指的是利用信息丰富的源域样本来提升目标域模型的性能。
self-supervised learning：其实自监督学习就是上面的 h过程，可以将数据的一些非线性编码到输入特征之中。
Invariant models: 从因果关系的角度学习稳定的特征，这些特征应遵循多个训练分布中的特定不变性，如果模型学习了这些不变性，在那些稳定的features上的变化将会被模型忽略。
Distributional robustness: 通过对抗学习来提高模型鲁棒性。

总结

本文在神经网络的外推能力上做了初步的探索，对于我们设计神经网络由指导性的意义，在体系结构和特征中编码适当的非线性可以帮助进行推断。
总之设NN就是对症下药，学习的样本最好很全面，就让MLPs学习简单的线性函数，其他的我们想办法去编码。
在GNN大红大紫之时，这篇文的出现使得GNNs将会胜任更多复杂的任务，搞GNN前途无量！！
在这里插入图片描述

hj_cheng29

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
How Neural Networks Extrapolate:From Feedforward to Graph Neural Networks ICLR2021最高分论文解析

How Neural Networks Extrapolate:From Feedforward to Graph Neural Networks ICLR2021最高分论文解析本篇论文由MIT的研究生keyulu Xu 继2020ICLR高分论文《What can neural networks reason about？》之后的又一力作，由于此篇论文大量的用到了上述论文的概念知识，所以这里贴出上篇论文的解析What can neural networks reason about？解析评审人所给
复制链接

扫一扫