基于累积分布函数的神经似然

简介

我们利用神经网络作为单调函数的通用逼近器来建立条件累积分布函数(CDFs)的参数化。通过对响应变量和CDF表示的参数应用自动微分,我们能够构建黑盒CDF和密度估计器。引入了一组族作为多元情况的替代结构。在一个极端情况下,最简单的构造是一个与最先进的深度学习方法相竞争的密度估计器,尽管它没有提供一个容易计算的多元cdf表示。在另一个极端,我们有一个灵活的结构,从中可以通过深度神经网络中的简单前向传递获得多元CDF评估和边缘化,但是其中的可能性计算随维度呈指数级增长。讨论了两个极端之间的替代方案。我们在涉及尾面积概率、尾依赖性和(部分)密度估计的各种任务上对不同的表示进行经验评估。

论文:Neural Likelihoods via Cumulative Distribution Functions
作者:Pawel Chilinski & Ricardo Silva

关注微信公众号,获取更多资讯
在这里插入图片描述

1 贡献

提出了一种基于深度神经网络的多元累积分布函数参数化方法。我们解释了如何通过对神经网络标准方法的直接适应来完成训练。我们工作背后的主要动机包括:对尾部区域概率的直接评估;不需要拟合全关节的联合分布的低维边际的相干估计以及监督/无监督密度估计。

前两个任务直接受益于由神经网络中的前向传递计算的CDF,因为尾部概率和边际CDF基本上可以直接在这种表示中读取。后者已经被越来越多的关于神经密度估计器的文献所解决。这至少可以追溯到Bishop(1994),他使用多层感知器对(条件)高斯混合的条件均值、方差和混合概率进行编码。最近,提出了将简单分布转换为更复杂分布的模型。Dinh等人(2015),Dinh等人(2017),Papamakarios等人(2017),Huang等人(2018)和De Cao和Titov(2019)是密度估计的最新技术的例子。他们使用简单基分布的可逆变换,其中雅可比矩阵的行列式易于计算,并且计算梯度的蒙特卡罗方法变得可行。根据体系结构的不同,它们针对密度估计或采样进行了优化。我们表明,在保持相对简单的均匀结构和少量超参数的同时,我们仍然与这些方法保持竞争。例如,与Bishop(1994)的方法相比,不需要选择混合物的基本分布,也不需要选择混合物的数量

以上所有内容都取决于我们如何构建多元cdf。从单变量CDFs到多变量CDFs的最直接扩展在概念上很简单,但可能性的计算在维度上呈指数增长。本质上,这与计算无向图形模型中的配分函数是相对应的,这里的问题是微分而不是积分。讨论了妥协,包括与高斯copula模型和其他基于小维边际的CDF结构的关系。一种极端牺牲了通过单个前向传递来表示CDF的能力,以换取高维的可伸缩性,我们可以将其与最先进的神经密度估计器进行比较。

总结

该文档提出了一种使用深度神经网络对多元累积分布函数(CDF)进行参数化的新方法,称为单调神经密度估计器(MONDE)。关键点如下:

  • MONDE利用神经网络作为单调函数的通用逼近器,构建了条件CDF的参数化表示。
  • 这使得可以直接评估尾部概率、一致估计低维边缘分布,以及监督/无监督密度估计。
  • 作者针对多元情况介绍了不同的构造方法,从简单的竞争性密度估计器到更灵活的构造,可以实现高效的CDF评估和边缘化。
  • 该论文在涉及尾部概率、尾部依赖性和(部分)密度估计的各种任务中评估了不同的MONDE表示,并展示了与最先进的深度学习方法相竞争的性能。
    关键点:
  • 多元CDF的新型神经网络参数化
  • 直接评估尾部概率和边缘分布
  • 具有竞争力的密度估计性能
  • 灵活的构造,在可扩展性和表达能力之间有不同的权衡

2 单调神经网络密度估计

我们现在引入单调神经密度估计器(Monotonic Neural Density Estimator, MONDE),它的灵感来自于参数化单调函数的神经网络方法。MONDE的主要用途是在深度神经网络中使用单个前向传递来计算条件cdf,同时通过利用深度学习中计算导数的现有方法来计算相应的条件密度。后者尤其适用于基于似然的拟合方法,如最大(复合)似然。我们将只关注连续情况,其中定义了概率密度函数(pdf),尽管通过考虑差分操作而不是微分操作,扩展到包括离散变量和连续变量的混合组合是很简单的。我们从最简单但重要的单变量情况开始,其中变量之间的依赖关系不必建模。我们通过更复杂的结构来总结最灵活但计算要求最高的情况,在这种情况下,我们处理多变量数据,而不假设数据生成过程的任何特定分布族。

这里我们使用下面的符号。
在这里插入图片描述
在这种情况下,层的定义直接遵循图的拓扑顺序。协变量xi,…、xD和响应变量y为图中无父节点,定义协变量所在层为第1层。响应变量y位于某层1 < ly < L,其中L为最后一层。第1层的每个中间节点i, h1,返回第1层所有节点的加权和的非线性变换。这里,常用的神经网络文学和基于初步结果从我们的实验中,我们使用双曲正切函数。最后一层l由单个节点t (y, x)使用sigmoid,代表概率P (y y |≤x = x)编码的神经网络的权重。换句话说,t(y, x)被解释为由某个w编码的CDF Fw(y | x)。
在这里插入图片描述

图1:表示单变量单调神经密度估计器计算结构的图。最后一个节点表示参数化条件分布函数F(y|x)相对于输入y的微分运算,其输出F(y|x)编码条件密度函数。传说解释了所使用的符号。

3 分布建模范围

根据论文中的内容,MONDE模型所构建的多元累积分布函数(CDF)并不一定遵循高斯分布。论文中提到,MONDE模型可以建模包括高斯分布和t分布在内的各种分布类型。具体来说:

  • 论文生成了一个合成数据集,其中包含两个成分:一个是高斯分布,另一个是自由度为2的t分布。这表明MONDE模型可以建模非高斯分布。

  • 论文还比较了MONDE模型与其他方法在捕捉尾部依赖性方面的表现。结果显示,MONDE模型能够很好地捕捉t分布成分的尾部依赖性,而其他方法如高斯混合模型则无法很好地拟合这种非高斯的尾部行为

因此,可以得出结论,MONDE模型构建的CDF并不局限于高斯分布,而是可以建模各种分布类型,包括具有非高斯尾部特征的分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值