阅读笔记-VAE相关论文:Multi-Object Representation Learning with Iterative Variational Inference

原文地址:Multi-object representation learning with iterative variational inference

提出一种名为“IODINE”的方法,实现对多目标图像的解耦。

 摘要翻译:

人类的感知是围绕着物体进行的,它构成了我们高层次认知和令人印象深刻的系统概括能力的基础。然而,大多数关于表征学习的工作都集中在特征学习上,甚至没有考虑多个物体,或者将分割作为一个(通常是监督的)预处理步骤。相反,我们论证了学习分割和表示对象的重要性。我们证明,从一个场景由多个实体组成的简单假设出发,有可能学习将图像分割成具有分离表征的可解释对象。

我们的方法在没有监督的情况下,学会了对被遮挡的部分进行涂抹,并推断出有更多物体的场景和有新特征组合的未见过的物体。我们还表明,由于使用了迭代变异推理,我们的系统能够为模糊的输入学习多模式后验,并自然地扩展到序列中。

Introduction(节选):

本文认为在场景中物体的发现(discovery)应视作 Representation Learning的重要部分,而不是视作一个单独的问题。

从空间混合模型(Spatial mixture model)角度来处理该问题,并在variational framework(变分框架?)中使用潜在对象表征的摊销迭代细化(amoritized iterative refinement)。

将关于对象存在的基本直觉(basic intuition)编码进模型中,这同时有利于对象的发现和实现完全由数据驱动的无监督方式的有效表示。

IODINE可对数据集CLEVR, Objects Room (Burgess et al., 2019), and Tetris (see Appendix B) 进行复杂场景的分割,并无监督的学习解耦物体特征。

方法:

由三部分组成:

  1. 在生成框架(Generative modelling)内表达多目标表征学习。
  2. 基于成功的VAE框架,使用变分推断(Variational inference)联合学习生成和推理模型。讨论多对象时的特殊挑战,并使用迭代摊销解决该问题。
  3. 整合所有元素并展示完整的系统如何进行端到端的训练。

1.  在生成框架(Generative modelling)内表达多目标表征学习。

标准VAE使用的方法不适用组合对象结构。为了实现系统概括(Systematic generalization),提出使用 multi-slot 表征, 其中给每个slot共享基本的表征格式,且可描述独立部分。

例如结构上看,Figure1中场景由八个对象组成,每个有自己的属性如形状,大小,颜色,位置和材料。为了分离对象,标准VAE会使用单独的特征维度来表

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值