SSL相关论文总结（二）

最新推荐文章于 2024-09-04 22:00:35 发布

kRYST4L4

最新推荐文章于 2024-09-04 22:00:35 发布

阅读量282

点赞数

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/WeakCoder/article/details/124557164

版权

本文介绍了2015年一篇关于半监督学习的重要论文——Semi-Supervised Learning with Ladder Networks。该框架利用加噪自动编码器和解码器构建网络，通过层次潜变量模型和无监督损失函数优化，为半监督学习提供新思路。网络结构包括加噪音编码器、解码器和无监督译码器，训练后用于未标记数据的优化。此框架对后续研究产生了深远影响。

摘要由CSDN通过智能技术生成

Semi-Supervised Learning with Ladder Networks

2015年的一篇半监督方向的顶级论文，论文中有一些很有意义的创新，也是为后续的研究工作指了一条路。

前言

我对这篇论文的理解不深（英语不好+数学不好），只能说是拜读了。

一、潜变量模型

Latent variable models：潜变量模型，我们在得到最初的表面特征x之后会通过mapping z=f(x)，意思就是对于某种东西的预测，其决定性因素并不在于表面特征x，而在于潜在的一组变量，这组变量很难赋予其某种特定的意义，所以称之为潜变量，潜变量模型的训练过程可以分成两步，第一步推测：根据之前已经得到的模型参数，在相同的分布下推测出更合理的z’，利用z’优化出更好的一组模型参数并向上传递，这就类似于卷积神经网络中层级越深提取的特征越贴近本质，顺便说一下，其他博客中对EM算法用了一个男女生的例子，这个例子本身确实没有问题，但是在这里可能会有一点迷惑性，因为论文中要求数据符合同一分布，防止求出平凡解

二、网络结构

在这里插入图片描述
这里讲一下整个网络的大体思路，左侧是一个用labelled data来训练的网络，自下而上是一个加噪音的自动编码器，没错，这里是给数据加噪，而且是每一步都加噪，到了顶端输出预测的标签进行优化的同时，这个网络的顶端还转向右侧，这里自上而下是解码器，在最后将输出一个近似于原输入值x的x^，解码的过程就是去噪的过程，别忘了这两部分中间还有每层之间的skip connection，这个东西传递的就是encoder每一层的z~，作为解码的参考，减轻对于更高层对于解码的压力。在最右边，这是一个不加噪音、很普通的译码器，这个针对unlabelled data进行模型优化，他会和解码器的每一层去求无监督loss，最后和有监督loss加起来，作为总的损失函数。最后值得注意的是，训练后测试时用的是最右侧的网络（谁测试还加噪音呢）。
在这里插入图片描述

这是具体的流程，可以看到，这里的伪代码分为三部分，对应上述三部分，值得注意的是这三部分的优化处理相互独立，最左边的加噪音encoder对标签y~求loss，中间的decoder是对于x^和x求loss，右边的encoder是与中间的decoder的每一层求loss，这里的Final classification也表明了测试时使用的网络。
这是对于编码、解码来说的结构，如果说是CNN的话也不是问题，论文中提到了CNN的downsampling，我们可以模拟encoder和decoder，设计一个upsampling，这里有两种方式，第一种就是设计独立的池化层，配有对应的BN和线性激活函数，第二种就是直接把这个操作抄过去（我理解的是怎么缩小的就怎么放大）。

还有很多的数学公式，我没有看出来其中蕴含的一些道理，就不在这里献丑了，这篇论文主要就是介绍了一种具有相当思想含量的框架，这个框架可以在日后的很多半监督论文中看到其中的影子，如有同样看过这篇论文的，欢迎批评指正

kRYST4L4

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SSL相关论文总结（二）

Semi-Supervised Learning with Ladder Networks2015年的一篇半监督方向的顶级论文，论文中有一些很有意义的创新，也是为后续的研究工作指了一条路。前言我对这篇论文的理解不深（英语不好+数学不好），只能说是拜读了。一、潜变量模型Latent variable models：潜变量模型，我们在得到最初的表面特征x之后会通过mapping z=f(x)，意思就是对于某种东西的预测，其决定性因素并不在于表面特征x，而在于潜在的一组变量，这组变量很难赋予其某种特定
复制链接

扫一扫