This is an original article. Please indicate reference if reproduced.
Introduction
首先,文中阐述了深度神经网络的一些缺陷,主要分为三个方面:
- 数据
- 有监督的深度学习方法通常都需要大量的数据用来训练,即使训练出来的模型是应用在小规模数据的任务上。
- 即使是在获得大量数据的情况下,通常也会面临数据标注的问题,因为大量数据的标注通常花费高昂。
- 运算性能
- 深度神经网络是非常复杂的模型,运算时需要大量的计算资源。
- 太多的超参数。
- 训练
深度神经网络的训练非常讲究技巧,需要多种配置的组合,但是对其进行理论分析却十分困难。
但是,深度神经网络有一个非常重要的能力:表征学习。值得注意的是,为了运用大量数据,学习模型的容量通常都很大,这里尤其是指“深度”。因此,作者推测可以将这种性质用到其他合适的学习模型上,也许能达到相当的效果。所以,本文就将神经元这个基本结构替换成的了决策树。
Cascade Forest Structure
如图1所示,级联森林由一层一层的随机森林构成,特征经过每一层随机森林处理,传到下一层。下面以图1为例进行说明。
- 对于每一层
- 蓝色的是两个完全随机树森林
- 每个完全随机树森林由500棵完全随机树构成
- 在每个结点上随机选择一个特征
- 每棵决策树生成