AutoEncoder
传统机器学习
- 特征工程复杂
深度学习早期被认为是一种无监督的特征学习
- 无监督
- 逐层抽象
基本原理
汽车的识别
- 底层特征组合成高阶(轮胎,车灯等便于识别)特征
Sparse Coding
- 从中提取16x16pixel的图像碎片
- 所有的图像碎片均可有64种正交的边组合得到
- 组合一张图像碎片所需的边很少
声音
- 20种基本结构
- 其他声音可由这20种基本结构线性组合得到
如何寻找这些基本结构
- 有大量的标注数据,可以train一个深层的神经网络
- 没有大量的标注数据,可以使用无监督的自编码器来提取特征
- AutoEncoder的目标
- 期望输入输出一致
- 使用高阶来重构自己
- Hinton的研究
- Reducing the dimensionality of data with neural networks
- Deep Belief Neworks
- 多层RBM堆叠而成
- 无监督的逐层训练(思想和AutoEncoder极其相似)的贪心算法
AutoEncoder提取高阶所需做的一些小技巧
限制隐含层节点的数量(比如降维过程)
- 如果在加一个L1的正则,则可以通过惩罚系数控制隐含节点的稀疏程度
- 给数据加入噪声(Denoising AutoEncoder)
- 加性高斯噪声
- Masking Noise
如果自编码器的隐含层只有一层,那么其原理类似于PCA