SSL相关论文总结(二)

Semi-Supervised Learning with Ladder Networks

2015年的一篇半监督方向的顶级论文,论文中有一些很有意义的创新,也是为后续的研究工作指了一条路。

前言

我对这篇论文的理解不深(英语不好+数学不好),只能说是拜读了。


一、潜变量模型

Latent variable models:潜变量模型,我们在得到最初的表面特征x之后会通过mapping z=f(x),意思就是对于某种东西的预测,其决定性因素并不在于表面特征x,而在于潜在的一组变量,这组变量很难赋予其某种特定的意义,所以称之为潜变量,潜变量模型的训练过程可以分成两步,第一步推测:根据之前已经得到的模型参数,在相同的分布下推测出更合理的z’,利用z’优化出更好的一组模型参数并向上传递,这就类似于卷积神经网络中层级越深提取的特征越贴近本质,顺便说一下,其他博客中对EM算法用了一个男女生的例子,这个例子本身确实没有问题,但是在这里可能会有一点迷惑性,因为论文中要求数据符合同一分布,防止求出平凡解

二、网络结构

在这里插入图片描述
这里讲一下整个网络的大体思路,左侧是一个用labelled data来训练的网络,自下而上是一个加噪音的自动编码器,没错,这里是给数据加噪,而且是每一步都加噪,到了顶端输出预测的标签进行优化的同时,这个网络的顶端还转向右侧,这里自上而下是解码器,在最后将输出一个近似于原输入值x的x^,解码的过程就是去噪的过程,别忘了这两部分中间还有每层之间的skip connection,这个东西传递的就是encoder每一层的z~,作为解码的参考,减轻对于更高层对于解码的压力。在最右边,这是一个不加噪音、很普通的译码器,这个针对unlabelled data进行模型优化,他会和解码器的每一层去求无监督loss,最后和有监督loss加起来,作为总的损失函数。最后值得注意的是,训练后测试时用的是最右侧的网络(谁测试还加噪音呢)。
在这里插入图片描述

这是具体的流程,可以看到,这里的伪代码分为三部分,对应上述三部分,值得注意的是这三部分的优化处理相互独立,最左边的加噪音encoder对标签y~求loss,中间的decoder是对于x^和x求loss,右边的encoder是与中间的decoder的每一层求loss,这里的Final classification也表明了测试时使用的网络。
这是对于编码、解码来说的结构,如果说是CNN的话也不是问题,论文中提到了CNN的downsampling,我们可以模拟encoder和decoder,设计一个upsampling,这里有两种方式,第一种就是设计独立的池化层,配有对应的BN和线性激活函数,第二种就是直接把这个操作抄过去(我理解的是怎么缩小的就怎么放大)。

还有很多的数学公式,我没有看出来其中蕴含的一些道理,就不在这里献丑了,这篇论文主要就是介绍了一种具有相当思想含量的框架,这个框架可以在日后的很多半监督论文中看到其中的影子,如有同样看过这篇论文的,欢迎批评指正


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值