深度学习入门 --- 自我学习与半监督学习

本文介绍了自我学习(Self-Taught Learning)和半监督学习的区别,并阐述了在计算机视觉任务中的应用场景。通过数据预处理、训练稀疏自编码器以及使用有标记数据进行特征转换,实现半监督学习的模型构建。最后,讨论了利用未标记数据改善学习性能的主流技术,包括半监督学习、直推学习和主动学习。
摘要由CSDN通过智能技术生成

该章节参考ufldl

1.什么是自我学习(Self-Taught Learning)与半监督学习

首先,什么是半监督学习?当你手头上拥有在大量未标注数据少量的已标注数据,那这种场景就可以说是半监督学习。自我学习和半监督学习的场景一样,不过有个细节不一样。

自学习(self-taught learning) 是更为一般的、更强大的学习方式,它不要求未标注数据 和已标注数据有同样的分布。而半监督学习不一样,它要求未标注数据 和已标注数据服从同样的分布。下面通过例子解释二者的区别。

假定有一个计算机视觉方面的任务,目标是区分汽车和摩托车图像;哪里可以获取大量的未标注数据呢?最简单的方式可能是从互联网上下载一些随机的图像数据集,在这些数据上训练出一个稀疏自编码器,从中得到有用的特征。这个例子里,未标注数据对比已标注数据,是一个完全不同的数据分布(未标注数据集中,或许其中一些图像包含汽车或者摩托车,但不是所有的图像都如此)。这种情形被称为自学习。

相反,如果有大量的未标注图像数据,要么是汽车图像,要么是摩托车图像,仅仅是缺失了类标号(没有标注每张图片到底是汽车还是摩托车)。也可以用这些未标注数据来学习特征。这种方式,即要求未标注样本和带标注样本服从相同的分布,有时候被称为半监督学习。在实践中,常常无法找到满足这种要求的未标注数据(到哪里找到一个每张图像不是汽车就是摩托车,只是丢失了类标号的图像数据库?)因此,自学习在无标注数据集的特征学习中应用更广。

2.自我学习的模型

2.1 数据预处理

首先对未标记数据和已标记数据进行相同的数据预处理。比如进行相同的归一化。如果对未标记数据进行PCA,那么PCA过程得到的特征向量矩阵U需要保留下来。之后对于已标记数据,应用 U T x U^Tx UTx 得到降维后的数据。或者,将已标记,未标记两部分数据凑起来,一同进行PCA降维。

2.2未标记数据训练稀疏自编码器

不懂稀疏自编码器的同学,可以参考我这篇博客

首先我们利用未标记数据训练一个自编码器。

利用训练得到的模型参数$ W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)}$,给定任意的输入数据 x x x,可以计算隐藏单元的激活量(activations) a a a</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值