论文解读:MisGAN: learning from incomplete data with generative adversarial networks.

MisGAN

Titile: MisGAN: learning from incomplete data with generative adversarial networks.
Year: 2019

  • 作者:
    Steven Cheng-Xian Li; University of Massachusetts Amherst; cxl@cs.umass.edu
    Bo Jiang; Shanghai Jiao Tong University; bjiang@sjtu.edu.cn
    Benjamin M. Marlin; University of Massachusetts Amherst; marlin@cs.umass.edu
  • 会议:ICLR 2019
  • 代码:https://github.com/steveli/misgan

Abstract

生成性对抗网络(GANs)已被证明是一种模拟复杂分布的有效方法,并在各种具有挑战性的任务中取得了令人印象深刻的结果。然而,典型的GANs需要在训练期间充分观察数据。在本文中,我们提出了一个基于GAN的框架来学习复杂的、高维的不完全数据。该框架学习一个完整数据生成器和一个模拟缺失数据分布的掩码生成器。我们进一步演示了如何通过为我们的框架配备一个经过对抗训练的插补器来插补缺失的数据。在完全随机缺失假设下,我们通过一系列实验对所提出的框架进行了评估。

Introduction

【关于GAN的描述】生成性对抗网络(GANs)(Goodfello et al.,2014)为学习复杂的高维分布提供了强大的建模框架。与基于可能性的方法不同,GANs被称为隐式概率模型(Mohamed&Lakshminarayanan,2016)。它们通过一个生成器来表示概率分布,该生成器学习从所需的分布直接生成样本。

【引出挑战】训练GAN通常需要访问大量的完全观测数据。然而,并非总是能够获得大量的完全观测数据。众所周知,缺失数据普遍存在于许多实际应用程序域中,在这些域中,不同的数据案例可能有不同的缺失条目。这种任意性的缺失对现有的机器学习模型提出了很大的挑战。

【不完全观测数据的生成过程】 x ∼ p θ ( x ) , m ∼ p ϕ ( m ∣ x ) \mathbf{x} \sim p_\theta (\mathbf{x}), \mathbf{m}\sim p_\phi (\mathbf{m}|\mathbf{x}) xpθ(x),mpϕ(mx)

其中 x ∈ R n \mathbf{x} \in \mathbb {R}^n xRn是完整数据向量, m ∈ { 0 , 1 } n \mathbf{m} \in \{0, 1\}^n m{0,1}n是二进制掩码,是缺失数据的指示符。

x o b s \mathbf{x}_{obs} xobs表示x的观测元素, x m i s \mathbf{x}_{mis} xmis表示根据掩码m丢失的元素。另外, θ \theta θ表示数据分布的未知参数, ϕ \phi ϕ表示掩模分布的未知参数,通常假设这些参数与 θ \theta θ无关。在标准最大似然设置中,通过最大化以下边际似然,对未知缺失数据值进行积分,来估计未知参数:

p ( x o b s , m ) = ∫ p θ ( x o b s , x m i s ) p ϕ ( x o b s , x m i s ) d x m i s . p(\mathbf{x}_{obs},\mathbf{m})=\int {p_\theta (\mathbf{x}_{obs}, \mathbf{x}_{mis}) p_\phi (\mathbf{x}_{obs}, \mathbf{x}_{mis}) d\mathbf{x}_{mis}}. p(xobs,m)=pθ(xobs,xmis)pϕ(xobs,xmis)dxmis.

Little&Rubin(2014)描述缺失数据机制 p ϕ ( m ∣ x o b s ; x m i s ) p_\phi(\mathbf{m}|\mathbf{x}_{obs};\mathbf{x}_{mis}) pϕ(mxobs;xmis)在完全数据 x = [ x o b s ; x m i s ] \mathbf{x}=[\mathbf{x}_{obs};\mathbf{x}_{mis}] x=[xobs;xmis]和掩码 m \mathbf{m} m之间的依赖关系:

  • Missing completely at random (MCAR): p ϕ ( m ∣ x ) = p ϕ ( m ) p_{\phi}(\mathbf{m} |\mathbf{x})=p_{\phi}(\mathbf{m}) pϕ(mx)=pϕ(m),
  • Missing at random (MAR): p ϕ ( m ∣ x ) = p ϕ ( m ∣ x obs  ) p_{\phi}(\mathbf{m} | \mathbf{x})=p_{\phi}\left(\mathbf{m} | \mathbf{x}_{\text {obs }}\right) pϕ(mx)=pϕ(mxobs ),
  • Not missing at random (NMAR): m \mathbf{m} m depends on x m i s \mathbf{x}_{mis} xmis and possibly also x o b s \mathbf{x}_{obs} xobs.

大多数关于不完全数据的工作都假设MCAR或MAR,因为在这些假设下 p ( x o b s , m ) p(\mathbf{x}_{obs},\mathbf{m}) p(xobs,m) 可以分解为 p θ ( x o b s ) p ϕ ( m ∣ x o b s ) p_\theta(\mathbf{x}_{obs})p_\phi(\mathbf{m}|\mathbf{x}_{obs}) pθ(xobs)pϕ(mxobs)。通过这种解耦,在学习数据生成模型时可以忽略缺失数据机制,同时得到 θ \theta θ的正确估计。当 p θ ( x ) p_\theta(\mathbf{x}) pθ(x)不允许在 x m i s \mathbf{x}_{mis} xmis上有效边缘化时, θ \theta θ的估计通常通过使用EM算法或更一般的方法(Little&Rubin,2014;Ghahramani&Jordan,1994年):

log ⁡ p θ ( x obs  ) ≥ E q ( x mis ∣ x obs ) [ log ⁡ p θ ( x obs  , x mis  ) − log ⁡ q ( x mis  ∣ x obs  ) ] \log p_{\theta}\left(\mathbf{x}_{\text {obs }}\right) \geq \mathbb{E}_{q\left(\mathrm{x}_{\text {mis}} \mid \mathrm{x}_{\text {obs}}\right)}\left[\log p_{\theta}\left(\mathbf{x}_{\text {obs }}, \mathbf{x}_{\text {mis }}\right)-\log q\left(\mathbf{x}_{\text {mis }} | \mathbf{x}_{\text {obs }}\right)\right] logpθ(xobs )Eq(xmisxobs)[logpθ(xobs ,xmis )logq(xmis xobs )]

【贡献】开发了一个基于GAN的框架,用于在存在不完全观测的情况下学习高维数据分布。我们的框架引入了一个辅助GAN来学习掩模分布来模拟丢失。掩码用于通过用常量值填充指定的缺失条目来**“屏蔽”生成的完整数据**。对完整数据生成器进行训练,使生成的屏蔽数据与被类似屏蔽的真实不完整数据无法区分。

【由来】我们的框架基于AmbientGAN的想法(Bora等人,2018)。AmbientGAN修改GAN的鉴别器,以区分在一系列损坏过程(或测量过程)下损坏的真实样本和损坏的生成样本。对于图像,测量过程的示例包括随机丢失、模糊、块修补等。丢失的数据可以看作是一种特殊类型的损坏,除了可以访问损坏的度量之外,还可以访问丢失的模式。此外,AmbientGAN假设测量过程仅由几个参数已知或参数化,这在一般的缺失数据问题中不是这样的。

【结果】我们提供的经验证据表明,当GAN生成器在数据生成过程中加入适当的先验知识时,该框架能够有效地从高度不完全的数据中学习复杂的高维数据分布。我们进一步展示了如何使用该体系结构来生成高质量的插补。

Method

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值