UFLDL教程: Exercise:Self-Taught Learning

本文介绍了使用UFLDL教程进行自我学习的过程,首先利用无标签数据训练稀疏自编码器提取特征,接着使用这些特征与有标签数据训练softmax分类器。自学习允许未标注数据和有标注数据分布不同,它先进行无监督学习,再进行有监督学习,以提高分类效果。在实验中,使用MNIST数据集,将数字0-4作为有标签数据,5-9作为无标签数据,通过训练得到的softmax模型对测试数据进行分类。
摘要由CSDN通过智能技术生成

自我学习


Deep Learning and Unsupervised Feature Learning Tutorial Solutions

1.先训练稀疏自编码器提取特征,再把特征和label给softmax分类器进行训练,最后用test数据集进行测试。
2.由于实际应用中找到大量有标注的样本是非常困难的,所有采用先用大量无标注样本来进行无监督训练自编码器,再用自编码器来提取特征,配合有标注样本来进行有监督训练softmax分类器。
3.数据预处理方面:例如,如果对未标注数据集进行PCA预处理,就必须将得到的矩阵 U 保存起来,并且应用到有标注训练集和测试集上;而不能使用有标注训练集重新估计出一个不同的矩阵 U (也不能重新计算均值并做均值标准化),否则的话可能得到一个完全不一致的数据预处理操作,导致进入自编码器的数据分布迥异于训练自编码器时的数据分布。
4.自学习(self-taught learning) 不要求未标注数据 x_u 和已标注数据 x_l 来自同样的分布。另外一种带限制性的方式也被称为半监督学习,它要求 x_u和 x_l 服从同样的分布。


流程图


稀疏自编码器学习图像特征(实现自学习)—用到无标签的样本集
softmax回归对样本分类—用到有标签的训练样本集

这里写图片描述

这里写图片描述


步骤


第0步:设置神经网络的结构

该神经网络包括三层:
输入层的神经元个数(数字识别,则设置输入的图像大小)
输出端的神经元个数(也就是类别数)
隐藏层神经元个数
另外一些关于系数编码的参数
sparsityParam、lambda、beta
最大迭代次数:maxIter

第一步:产生无标签样本集和有标签样本集(训练数据集和测试数据集)

1)导入数据集mnistData和mnistLabels
mnistData是一个矩阵,每一列为一个输入样本(也就是一个输入的数字图像所有像素点按列排布)
mnistLabels是一个向量,它存储的数字表示mnistData中每一列样本的类别
(2)将输入的样本集mnistData进行分组
① 首先,将mnistData分为两组:一组为有标签的数据集(数字0-4的样本),另一组为无标签的数据集(数字5-9的样本)
(这两组的指标集分别为labeledSet和unlabeledSet)
② 然后,再将有标签的数据集平均分为两组,一组作为训练集、一组作为测试集;
(这两组的指标集分别为trainSet和testSet)
这里的指标,指在mnistData中的列序号
③ 分别得到上述三组指标集得到相应的数据集,并得到有标签数据集的标签
unlabeledData:无标签数据集,每一列为一个样本
trainData:有标签训练集,每一列为一个样本,相应的标签存放在trainLabels中
testData:有标签测试集,每一列为一个样本,相应的标签存放在testLabels中

用29404个无标注数据unlabeledData(手写数字数据库MNIST Dataset中数字为5-9的数据)来训练稀疏自动编码器,得到其权重参数opttheta。这一步的目的是提取这些数据的特征,虽然我们不知道它提取的究竟是哪些特征(当然,可以通过可视化结果看出来,可假设其提取的特征为Features),但是我们知道它提取到的特征实际上就是已训练好的稀疏自动编码器的隐藏层的激活值(即:第2层激活值)。注意:本节所有训练稀疏自动编码器的算法用的都L-BFGS算法。

第二步:训练稀疏自编码器

利用无标签数据集unlabeledData训练稀疏自编码器
① 初始化化自编码器的参数theta
② 调用minFunc中的最优化函数,计算得到稀疏自编码器的参数
包括设置minFunc函数的一些参数及对minFunc函数的调用,这里要用到稀疏自编码器的代价函数和梯度计算的函数sparseAutoencoderCost

第三步:利用稀疏自编码器对有标签的训练样本集和测试样本集提取特征

在得到稀疏自编码器后,可以利用它从有标签的数据集中提取图像特征,这里需要完成feedForwardAutoencoder.m函数
所谓图像的特征,其实就是指该图像在稀疏自编码器的权值矩阵W1作用下得到的隐藏层的输出
可以得到训练集的特征trainFeatures和测试集的特征testFeatures
它们的每一列分别是由稀疏自编码器提取出的特征

训练样本集提取特征

把15298个已标注数据trainData(手写数字数据库MNIST Dataset中数字为0-4的前一半数据)作为训练数据集通过这个已训练好的稀疏自动编码器(即:权重参数为opttheta的稀疏自动编码器),就可提取出跟上一步一样的相同的特征参数,这里trainData提取的特征表达假设为trainFeatures,它其实也是隐藏层的激活值。如果还不明白,这里打一个比方:假设上一步提取的是一个通信信号A(对应unlabeledData)的特征是一阶累积量,而这一步提取的就是通信信号B(对应trainData)的一阶累积量,它们提取的都是同样的特征,只是对象不同而已。同样地,unlabeledData和trainData提取的是同样的特征Features,只是对象不同而已。

测试样本集提取特征

把15298个已标注数据testData(手写数字数据库MNIST Dataset中数字为0-4的后一半数据)作为测试数据集通过这个已训练好的稀疏自动编码器(即:权重参数为opttheta的稀疏自动编码器),就可提取出跟上一步一样的相同的特征参数,这里testData提取的特征表达假设为testFeatures,它其实也是隐藏层的激活值。


注意:如果上一步对unlabeledData做了预处理,一定要把其各种数据预处理参数(比如PCA中主成份U)保存起来,因为这一步的训练数据集trainData和下一步的测试数据集testData也一定要做相同的预处理。本节练习,因为用的是手写数字数据库MNIST Dataset,已经经过了预处理,所以不用再预处理。
具体见:http://ufldl.stanford.edu/wiki/index

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值