深度 ReLU 网络在特征提取和泛化中的深度选择
资源下载(笔记,pdf & 思维导图)
笔记正文(小绿鲸记笔记格式有点乱,抱歉)
深度学习的核心是采用具有一定结构的深度神经网络 来提取数据特征,同时设计目标驱动算法。如图一所示,深度学习体现了特征提取算法的实用性。
chap3 提取单个数据特征时深度ReLU网络的深度选择
3.1 Data Features
Definition 1::利普希茨条件
f 的平滑度特征不足以绕过维数的诅咒,这需要x的额外结构特征,为此,引入以下输入的组结构特征
Definition 2:用组结构描述不同输入变量之间的关系
3.2 提取群结构的深度选择
引理3:说明了深度在提取结构特征方面的能力,本文在提取结构特征时追求深度和自由参数数量之间的权衡
引理4:表现出深度和参数之间的权衡,并消除了特征-深度的对应关系
定理1:显示了深度ReLU网络在提取稀疏多项式特征方面的性能
3.3 用于提取平滑度特征的深度网
定理2:深度ReLU网络在提取平滑度特征时至少不比浅网差
chap4 提取复合数据特征的深度选择
4.1 定理3:网络深度对于提取复合特征不是唯一的,只要它大于某个级别即可
4.2 深度网络在特征提取中的两个重要优势:
与经典的串联处理不同,深层网络通过体现其相互作用而成功地提取了复合特征,从而降低了容量成本
深度神经网络在提取单个特征和复合特征方面的多功能性,即每个特征对应于多个深度,反之亦然
深网提取复合特征的两个推论
chap5 在深层网络上实现ERM的泛化误差分析
5.1 empirical risk minimization
(经验风险最小化 ERM)
在理论分析中,从模型选择的角度关注深度的力量,目的是在不考虑优化算法的可用性的情况下,推导在深度remu网络上实现ERM的泛化误差
5.2 根据定理1、2和3
特征提取的准确性随着深网容量的增加而降低,从而导致ERM的偏差很小。但是,过大的容量会使ERM对噪声敏感,并导致较大的差异。通过平衡偏差和方差来获得ERM的最佳泛化性能
o
o
5.3 Fig.4
o
(a) 对于深度网络上的ERM,问题在于容量取决于深度和自由参数的数量
(b)曲线 “A” 中的所有(L,n)对 共享相同的共享相同的覆盖编号范围
o
5.4 定理4:从理论上讲,定理4表明,有许多深度可以达到相似的最优泛化误差界
chap6 实验
在本节中,介绍玩具模拟和真实数据实验,以显示深度在特征选择和预测中的作用
o
o
6.5 泛化能力验证
o
Table3:网络的最佳宽度候选项
Fig 10.记录了具有不同深度的深网的最佳MSE和成功收敛的速率。
① 在仿真中,证明了在深度网络中将特征提取与目标驱动学习相结合是可行的。
② 实际上,具有四层的深网可以显着提高浅网的性能
o
6.6 地震烈度预测的应用
o
真实数据实验:Table5 ——5层深层网络具有最佳性能,而具有其他深度的网络无法与支持向量机 (SVM)竞争。
chap7 主要贡献
7.1
在相同的容量成本下 (通过覆盖数量),证明了深网在提取组结构特征方面优于浅网
7.2
证明了深remu网是提取平滑度特征的最佳工具之一
7.3
严格证明了特征对深度和反之的适应性,从而得出了在深度网络上实现经验风险最小化的最佳学习率
7.4
进行了广泛的数值实验,包括玩具模拟和真实数据验证,以显示深度网络在特征提取和泛化方面的出色表现。