NOTEARS 浅析

提出

一种新的基于分数的 DAG 学习方法,通过将传统的组合优化问题(左)转化为连续程序(右)

在这里插入图片描述

其中 G ( W ) G(W) GW是由加权邻接矩阵W导出的d节点图, F : R d × d → R F:R^{d×d}→ R F:Rd×dR是一个分数函数,我们的关键技术手段 h : R d × d → R h:R^{d×d}→ R h:Rd×dR是实矩阵上的一个光滑函数,其水平集为零正好表示无环图

贡献

  1. R d × d R^{d×d} Rd×d上构建一个平滑函数,可导并具有编码无环性约束。使得能够用平滑的等式约束替换上式中的组合约束 G ∈ D G\in \mathbb{D} GD

  2. 开发了一个等式约束程序,用于从可能的高维数据中同时估计稀疏 DAG 的结构和参数,并展示了如何使用标准数值求解器来寻找固定点

  3. 证明了所得方法在现有技术的经验评估中的有效性。如图1

在这里插入图片描述

图1:在n = 1000(大样本)和n = 20(样本不足)的 20 节点图上学习的加权邻接矩阵的视觉比较: W ~ E C P ( λ ) \tilde{W}_{ECP}(\lambda) W~ECP(λ)是提出具有L1-正则化 λ \lambda λ的NOTEARS算法, B F G S B_{FGS} BFGS是baseline 的二元估计。所提出的算法在大样本上表现良好,在具有L1-正则化的小n上保持准确

  1. 将我们的输出与精确的全局最小化器进行比较,并表明我们的方法获得的分数与实践中的全局最优分数相当,尽管我们的方法只能保证找到固定点

背景

基本的DAG学习问题表述如下:令 X ∈ R n × d X\in \mathbb{R}^{n×d} XRn×d为由随机向量 X = ( X 1 , . . . , X d ) X=(X_1,...,X_d) X=(X1,...,Xd)的n个 i.i.d(独立同分布independent and identically distributed ) 观测值组成的数据矩阵,设 D \mathbb{D} D表示d个节点上DAGs G=(V,E) 的离散空间。给定X,我们寻求学习联合分布P(X)的 DAG G ∈ D G\in \mathbb{D} GD (也称为贝叶斯网络)。我们通过由加权邻接矩阵 W ∈ R d × d W\in \mathbb{R}^{d×d} WRd×d定义的结构方程模型 (SEM) 对X进行建模。因此,我们将在 R d × d \mathbb{R}^{d×d} Rd×d d × d d×d d×d实矩阵的连续空间)上进行运算,而不是在离散空间 D \mathbb{D} D上进行运算。

我们在本文中的重点完全放在寻找最小化 LS 损失的 SEM 的计算问题上

我们当前工作的主要目标之一是通过类似的封闭形式、连续的程序来制定基于分数的学习。实现这一目标的关键设备是无环性的平滑表征,在下一节介绍

无环性的新表征

为了使(3)适合黑盒优化,我们建议用单个平滑等式约束 h ( W ) = 0 h(W) = 0 h(W)=0 替换(3)中的组合非循环性约束 G ( W ) ∈ D G(W)\in \mathbb{D} G(W)D。理想情况下,我们希望函数 h : R d × d → R h : \mathbb{R}^{d×d} →\mathbb{R} h:Rd×dR 满足以下需求 :

a) h ( W ) = 0 h(W) = 0 h(W)=0 当且仅当 W W W 是非循环的(即 G ( W ) ∈ D G(W)\in \mathbb{D} G(W)D

b) h h h 的值量化图的“DAG-ness”(特性)

c) h h h 是光滑函数

d) h h h 易于求导

特例:二元邻接矩阵

一般情况:加权邻接矩阵

算法1:
在这里插入图片描述

优化

用增强拉格朗日求解ECP

求解无约束子问题

阈值化

————

个人理解

论文所描述的是:查找图的节点数和结构是组合问题,在搜索空间上是超指数的,这很难从具有联合分布的样本中学到符合的DAG。论文通过结构约束来确保无环,使用线性SEM的方法将该问题建模为连续优化问题。DAG结构的一个例子是BN,但其图结构学习的问题是NP难的。基于分数的方法针对未知的邻接矩阵和观察到的样本优化一个特定的评价函数并带有一个无环组合约束,但超指数的图节点搜索空间使这个优化很难处理,因此在实际使用时往往需要额外的结构假设。将无环约束等价成一个关于邻接矩阵的连续函数 f(A),使问题可以使用一些比较成熟的优化器,并且其认为通过这种优化得到的局部最优和全局最优的效果接近。基于分数的模型通常对变量和模型类做一些假设,用LSE在线性SEM上进行了验证,但线性的模型可能很难反映数据的真实分布。

论文的理论基础是如果DAG, G 包含且仅包含联合分布P 中成立的条件独立性,则 G 和 P 是相互服从的。那么能从 P中恢复 G 。给定一组i.i.d的样本 D ,结构学习就要从 D 中恢复 G
在这里插入图片描述

该论文的模型将图的邻接矩阵作为一个显式的参数X并和其它神经网络的参数一起ENCODER学习,在对输出的概率分布建模DECODER后,VAE能够处理连续和离散的变量,由于使用了GNN,输入和输出变量可以是标量或向量,每个变量看作图节点的输入/输出特征。该文用多项式表示无环约束,便于在主流深度学习平台下做自动微分。

在这里插入图片描述
该论文的模型DAG-GAN 公式化为生成器G和判别器D之间的极小极大博弈。训练G以最大化包含两个分量的加权评分函数:一个是Pd和Pc之间的概率度量损失,另一个是G的输出属于p的概率。同时,训练G以最小化样本和对应标签之间的损失。同时在优化过程中必须满足非循环性约束。每个变量看作图节点的输入/输出特征。该文用多项式表示无环约束,便于在主流深度学习平台下做自动微分。

论文中的公式主要体现在工程的lbfgsb_scipy和nonlinear代码中,该代码展示如何定义GNN中的网络层和学习过程中的结构。工程中使用了梯度和优化器是L-BFGS-B,这个优化器给出了凸函数得全局最小值,从而结合梯度运算进行收敛。

论文出处:DAGs with NO TEARS: Continuous Optimization for Structure Learning

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值