正则化
weixin_37958272
这个作者很懒,什么都没留下…
展开
-
Cross-Iteration Batch Normalization
Cross-Iteration Batch Normalization 批量归一化的一个众所周知的问题是,在mini-batch的情况下,它的有效性大大降低。当一个mini-batch包含很少的例子时,在训练迭代中,无法可靠地估计归一化所依据的统计数据。为了解决这个问题,我们提出了Cross-Iteration Batch Normalization(CBN),其中来自多个最近迭代的样本被共同利用以提高估计质量。在多个迭代中计算统计信息的一个挑战是,由于网络权重的变化,不同迭代的网络激活不能相互比较。因此,翻译 2020-08-19 02:58:20 · 542 阅读 · 0 评论 -
Group Normalization
Group Normalization 批量归一化(BN)是深度学习发展中的里程碑技术,可以实现各种网络的训练。然而,沿着Batch维度进行归一化会带来一些问题–当批次规模变小时,BN的误差会迅速增加,这是Batch统计估计不准确造成的。这限制了BN在训练大型模型和将特征转移到计算机视觉任务(包括检测、分割和视频)中的使用,这些任务需要小批量的内存消耗限制。在本文中,我们提出了Group Normalization(GN)作为BN的简单替代方法。GN将通道分成若干组,并在每组内计算均值和方差进行归一化。GN翻译 2020-08-17 17:03:54 · 250 阅读 · 0 评论 -
Instance Normalization
Instance Normalization转载 2020-08-17 10:19:15 · 736 阅读 · 0 评论 -
Layer Normalization
Layer Normalization 训练最先进的深度神经网络是计算成本很高的。减少训练时间的一种方法是对神经元的活动进行归一化。最近引入的一种称为批量归一化的技术,使用一个神经元的输入在一个mini-batch的训练案例上的分布来计算均值和方差,然后用这些均值和方差来归一化该神经元在每个训练案例上的输入。这大大缩短了前馈神经网络的训练时间。然而,批归一化的效果取决于小批量的大小,如何将其应用到循环神经网络中并不明显。在本文中,我们将批归一化移植到层归一化中,通过在单个训练案例上计算层中所有神经元输入的总翻译 2020-08-14 18:02:48 · 523 阅读 · 0 评论 -
DropBlock
DropBlock: A regularization method for convolutional networks 当深度神经网络被过度参数化,并通过大量的噪声和正则化训练时,深度神经网络通常会有很好的效果,例如权重衰减和dropout。虽然dropout被广泛地用作全连接层的正则化技术,但对于卷积层来说,它往往不太有效。这种dropout对于卷积层的成功率不足的原因可能是由于卷积层中的激活单元在空间上是相关的,因此尽管dropout,信息仍然可以在卷积网络中流动。因此,需要一种结构化的dropou翻译 2020-08-14 15:46:08 · 1566 阅读 · 0 评论 -
Dropout
Dropout: A Simple Way to Prevent Neural Networks from Overtting 1. Introduction 深层神经网络包含多个非线性隐藏层,这使得它们具有很强的表达能力,能够学习输入和输出之间非常复杂的关系。然而,在有限的训练数据下,这些复杂关系中的许多都是采样噪声的结果,因此即使是从相同的分布中提取的,它们也会存在于训练集中,而不是真实的测试数据中。这导致了过度拟合,许多方法已经开发出来减少它。这些措施包括在验证集的性能开始恶化时立即停止训练,引入各翻译 2020-07-05 22:50:14 · 1177 阅读 · 0 评论 -
BatchNorm的个人解读和Pytorch中BN的源码解析
BatchNorm的个人解读和Pytorch中BN的源码解析转载 2020-07-05 22:43:46 · 562 阅读 · 0 评论 -
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift abstrate 随着前几层参数的变化,训练过程中各层输入分布的变化,使得训练深层神经网络变得复杂。这就降低了训练的速度,需要较低的学习率和仔细的参数初始化,并且使得训练具有饱和非线性(saturating nonlinearities)的模型变得非常困难。我们将这种现象称为internal covariate shift,翻译 2020-07-05 22:25:00 · 181 阅读 · 0 评论