模型优化策略

最新推荐文章于 2024-07-25 13:13:25 发布

weareu

最新推荐文章于 2024-07-25 13:13:25 发布

阅读量2.5k

点赞数

分类专栏：神经网络文章标签：模型优化

神经网络专栏收录该内容

13 篇文章 0 订阅

订阅专栏

摘自《机器之心》

一、动态超参数：

该超参数为正则化项和权重，而非与网络拓扑相关的超参数。因为该类参数更改后需要大量的再训练，优势不明显。方法：梯度下降中，每完整更新参数一次后，调整正则化项和权重。

1.1 Dropout设置

dropout：通过防止特征检测器的共适性来减少过拟合。但在训练初期，共适性可能是网络的最优自组织的开端，如果在该阶段抑制则可能导致训练过程加长。

方法：增加一个dropout率的超参数调度。（Morerio）

1.2 缓和网络（Mollifying Network）

该网络结合了增量控制数据分配技术和增量控制模型表示能力的技术，每一层使用不同的数据调度，较低层的噪声退火快于较高层，因为较低层的表示设定为学得更快。

方法：通过模拟退火降低数据温度，同时修改各种超参数实现更长距离的依赖。

例如：在LSTM中，将输出门设置为1，输入门为1/t，遗忘门为1-1/t，t是退火时间步。通过该系统，最初处理词袋模型，增加为处理更多上下文的能力。

模拟方法是，定义一个数据温度以模仿物质的退火温度，取数据能量为欲优化的目标函数。网络运行开始时温度较高，调整权值时允许目标函数偶尔向增大的方向变化，以使网络能跳出那些能量的局部极小点。随着网络温度不断下降至０，最终以概率１稳定在其能量函数的全局最小点，从而获得最优解。

二、自适应架构

修正拓扑超参数。两类：训练中增加参数来塑造模型、修剪边或节点压缩模型。

2.1 架构生长

训练中增加参数的方法：问题在于何时何处增加新参数，如何训练新参数。

2.1.1 图像分类

完整训练完大批量加入参数；将专门的辅助层并行加入现有网络；这些层在类边界上训练，对流出的数据集的混淆矩阵进行谱聚类，并将类划分为具有挑战性的子问题，从而选择类边界。

谱聚类：一种是一种基于图论的聚类方法!!它将带权无向图划分为两个或两个以上的最优子图,使子图内部相似,而子图间相异,依然是很正统的聚类思想。

辅助层与原始通用系统并行随机初始化，然后每个辅助层仅基于指定的类分区中的样本进行训练。除了对最后的分类层进行微调外，原始通用网络是固定的，由此产生的网络就是多专家网络，该网络可以改善图像分类问题的结果。

2.1.2 自编码器

同时，神经生长深度学习（Neurogenesis Deep Learning, NDL）使自编码器有用终身学习的能力。

方法：模型遇到异常值时添加神经元来更新自编码器的拓扑结构。新参数只在异常值上进行训练，使现有编码器参数以更小步长进行更新。现有编码器参数只有直接连接在新神经元上才会更新。引入并训练新神经元后，使用（intrinsic replay）的方法稳定网络现有结构。

2.1.3 无穷受限玻尔兹曼机

受限玻尔兹曼机的扩展通过独特的索引将隐藏单元参数化，表示成一个序列。这些指令通过支持旧节点直到收敛来增强网络增长的顺序，允许系统任意增长。

2.2 架构修剪

从训练好的网络中修剪便或者神经元。可用于压缩或者

2.2.1 修剪边

修剪边而不会减少网络的维度类型。但是会使网络更稀疏，从而有可能节约内存。

方法一：如果权重低于特定阈值，则权重置1。

方法二：基于修剪误差变化的泰勒级数近似（Taylor series approximation）来选择权重。深层网络不适用，因为需要计算海森矩阵。

方法三：在各层上执行最佳脑外科（optimal brain surgery）。最佳脑损害（optimal brain damanged）：消除后，训练错误上增加最小的权重，要求海森矩阵为对角阵。最佳脑手术（optimal brain surgeon），不要求海森矩阵，更新后无需重训。

2.2.2 修剪节点

修剪全部节点能够减少网络的维数，并且比修剪边，候选更少。

方法一：使用下式计算每层节点的重要程度，即该节点到下一层所有节点权重的平均值。根据节点的重要性对所有节点进行排名，然后连续删除每个节点。

从超参数到架构，一文简述模型优化策略

方法二：删除相似节点

方法三：蛮力法基于节点对性能的影响而贪婪地选择要牺牲的节点。在蛮力法中，他们在没有每个节点的情况下在测试数据上重新运行了网络，并根据得到网络的误差对节点进行排序。它们的重要性指标是基于节点对性能影响的神经元级泰勒级数近似。它们在每次节点移除后对剩余节点重新排序，以解释生成然后又被取消的子网络的影响。

2.2.3 合并网络

2.3 非参数神经网络

非参数神经网络 (NNN) 将增加神经元与对神经元施加增加稀疏性的惩罚结合起来。

不能用于RNN，

三、教师学生方法：

在研究任何自适应架构时，重要的是将使用网络之前状态的基线模型（「教师」）与具有新架构的「学生」网络进行比较。在蒸馏学习（distillation learning）的特殊情况下引入教师学生方法，即使用教师网络的输出层来代替真正的标签。蒸馏（distillation）是一种以高性能实现大型集成压缩或昂贵分类器压缩的技术。较小的网络是通过一个目标函数来训练的，这个目标函数将应用于真实标签的损失函数与交叉熵结合起来，这个网络会和较大的教师网络的 logit 层进行对照。除压缩以外，教师学生方法对域适应技术也很有效 [25]，这表明它对于适应数据调度的新时间步可能会很有效。