简介
如果已经有一个足够强大的机器学习算法,为了获得更好的性能,最靠谱的方法之一是给这个算法以更多的数据。机器学习界甚至有个说法:“有时候胜出者并非有最好的算法,而是有更多的数据。”
在自学习和无监督特征学习问题上,可以给算法以大量的未标注数据,学习出较好的特征描述。在尝试解决一个具体的分类问题时,可以基于这些学习出的特征描述和任意的(可能比较少的)已标注数据,使用有监督学习方法完成分类。
我们已经了解到如何使用一个自编码器(autoencoder)从无标注数据中学习特征。假定有一个无标注的训练数据集(下标u代表“不带类标”)。现在用它们训练一个稀疏自编码器(可能需要首先对这些数据做白化或其它适当的预处理)。
利用训练得到的模型参数W和b,给定任意的输入数据 x,可以计算隐藏单元的激活量(activations)a 。如前所述,相比原始输入 x 来说,a可能是一个更好的特征描述。下图的神经网络描述了特征(激活量 )的计算。
这实际上就是之前得到的稀疏自编码器,在这里去掉了最后一层。