Learning Over Multitask Graphs—Part I:Stability Analysis
摘要
本文提出了一个多任务优化问题,其中网络中的智能体有单独的目标要满足,或有单独的参数向量要估计,受制于图上的平滑条件。平滑条件软化了相邻节点之间的任务的过渡,并允许将关于图结构的信息纳入推理问题的解决方案。一种扩散策略被设计来相应数据流,并使用随即近似来代替实际的梯度向量,这通常是不可用的。该方法依赖于最小化全局成本,该城堡呢由促进平滑的属于正则化的单个代价的总和组成。我们在第一部分的工作中,在步长参数的条件下,自适应策略诱导了一个收缩映射,并导致小步长数量级上的小估计误差。第二部分的结果将明确解释网络拓扑结构和正则化强度对网络性能的影响,并将为网络上分布式推理的有校多任务策略设计提供见解。
在[19]-[21]中,分布式策略是在假设代理之间的参数向量部分重叠的情况下开发的。
[22]中考虑了更一般的场景,其中假设代理之间的任务通过线性等式约束局部耦合。
在[23]中,参数空间被分解为两个正交子空间,其中一个子空间是所有代理的公共子空间。
还有另一种有用的方法来建模任务之间的关系,即使用编码这些关系的适当正则化项来制定优化问题[13]–[18]。例如,[13]中开发的策略将平方l2范数协正则化器添加到均方误差标准中,以促进任务相似性,而[14]中的策略则添加了l1范数协正则器,以促进分段常量转换。
平滑特性软化了相邻节点之间任务的过渡,并允许将关于图结构的信息合并到推理问题的解决方案中。
Introduction
基于可能获得的关于任务如何相互关联的先验信息的类型,可以通过将先验信息转换为对要推断的参数向量的约束来推导多任务学习算法。
本文考虑了多任务推理问题,其中网络中的每个智能体寻求最小化某个由损失函数的期望表示的单个代价函数。
在[19]-[21]中,分布式策略是在假设代理之间的参数向量部分重叠的情况下开发的。
[22]中考虑了更一般的场景,其中假设代理之间的任务通过线性等式约束局部耦合。
在[23]中,参数空间被分解为两个正交子空间,其中一个子空间是所有代理的公共子空间。
还有另一种有用的方法来建模任务之间的关系,即使用编码这些关系的适当正则化项来制定优化问题[13]–[18]。例如,[13]中开发的策略将平方l2范数协正则化器添加到均方误差标准中,以促进任务相似性,而[14]中的策略则添加了l1范数协正则器,以促进分段常量转换。
平滑特性软化了相邻节点之间任务的过渡,并允许将关于图结构的信息合并到推理问题的解决方案中。
这种平滑特性(在这种特性下,任务在相邻顶点处相似,相似程度由它们之间的权重指定)在现实世界中经常被观察到。
为了利用平滑先验,我们在这项工作中将推理问题表述最小化个体成本的总和,由促进平滑的术语来正则化,称为图-拉普拉斯正则子。
本部分的分析还揭示了正则化强度η如何将网络的收敛点转向许多模式,从非合作模式开始,每个智能体收敛到其个体成本的最小值,到单任务模式结束,所有智能体收敛到对应于个体成本总和的最小值的公共参数向量。我们还将在第二部分[24]中推导稳态网络的均方误差相对于正则代价的最小值的封闭形式表达式。这种封闭形式的表达式将明确地揭示正则化强度、网络拓扑结构、梯度噪声和数据特征对网络性能的影响。此外,在第二部分[24]中还将导出稳态网络相对于各成本最小值的均方误差的封闭表达式。该表达式将为在网络上进行分布式推理的有效多任务策略的设计提供见解。
光滑先验下的分布式推理
问题提出和适应策略
akl反映了k和l之间关系的强度
w
n
o
w_n^o
wno网络正则化解
假设1(强凸性):假设单个代价
J
k
(
w
k
)
J_k(w_k)
Jk(wk)都是两次可微且强凸的,使得Hessian矩阵函数
H
k
(
w
k
)
=
∇
w
k
2
J
k
(
w
k
)
H_k(w_k) =∇^2_{w_k} J_k(w_k)
Hk(wk)=∇wk2Jk(wk)从下面和上面统一有界
设
L
=
L
⊗
I
M
L=L⊗ IM
L=L⊗IM。
W
W
W的平滑度可以用拉普拉斯图的二次形式来测量:
S
(
W
)
=
W
T
L
W
=
S(W) = W^TLW =
S(W)=WTLW=
直观地说,假设权重是非负的,S(W)表明,如果在连接它们的边上具有大akl的节点具有相似的权重值{wk,wl},则W被认为是平滑的。
主要成果总结
平滑参数η可以被视为控制学习过程性质的有效调整参数。
对于0<η<∞, 网络表现为多任务模式,其中代理寻求其各自的模型,同时确保这些模型满足η值所规定的某些平滑性和封闭性条件。
首先,多任务策略(9)的目标是利用相邻代理之间的相似性,试图通过本地通信来提高单个最小化Wo集合中的整体网络性能。
本文的分析(第一部分,及其附带的第二部分[24])也量化了合作的好处,即提高算法极限点周围的均方偏差的目标。