这篇文章 是看了冯霁博士的论文总结,一部分是个人看法,如果错误欢迎指正
简介
在过去的十年中,深度神经网络的发展在机器学习领域取得了显著的进步。通过构建层次结构或 “深度” 结构,该模型能够从监督和无监督设置的原始数据中学习良好的表示,这被认为是其关键成分。成功的应用领域包括计算机视觉、语音识别、自然语言处理等.
目前,几乎所有的深度神经网络都是利用随机梯度下降的反向传播作为训练过程中对训练更新参数的主力。的确,当模型由可微组件组成(例如,带有非线性激活函数的加权和)时,反向传播仍然是目前的最佳选择。其他一些方法如目标传播作为神经网络训练的一种替代方法已经被提出,但其有效性和普及程度仍处于早期阶段。例如,已有的工作证明了目标传播最多可以和反向传播一样好,并且在实践中,经常需要额外的反向传播来进行微调。换句话说,旧的、好的反向传播仍然是训练可微学习系统(如神经网络)最有效的方法。另一方面,探索利用不可微模块构建多层或深层模型的可能性不仅具有学术意义,而且具有重要的应用潜力。例如,
诸如随机森林或梯度提升决策树(GBDT)之类的树集成仍然是在各种领域中对离散或表格数据进行建模的主要方式,因此将在树集成的数据中获得所学习的分层分布式表示。
由于没有机会使用链式法则传播误差,因此不可能进行反向传播。这就产生了两个基本问题:首先,我们能否构造一个具有不可微组件的多层模型,使中间层中的输出可以被视为分布式表示?第二,如果是这样的,如何在不借助反向传播的情况下共同训练这些模型?本文的目的就是提供这样的一种尝试。
这是第一次尝试用树集成来构建多层模型,该模型能够构建具有自适应模型复杂性的多层结构,并在广泛的任务范围内有竞争性表现。与此同时,如何利用forest构建多层次模型,明确地检验其表示学习能力,目前还不清楚。由于前人的许多研究表明,多层分布表示法可能是深度神经网络成功的关键原因,因此对表示学习法进行探索是必要的
之前的模式
考虑具有m-1中间层和一个最终输出的多层前馈结构层. 表示 o i where i ∈ {0,1,2,...,M} 作为每一层的输入层和输出层 o M . 对于特定的输入数据x , 相关的每一层的输入在Rdi, where i ∈ {0,1,2,...,M} .因此,学习任务是学习 F i : R d i−1 → R d i的映射,对于每层 i > 0 ,