深度学习优化算法
文章平均质量分 53
weixin_37958272
这个作者很懒,什么都没留下…
展开
-
RandAugment
RandAugmenthttps://arxiv.org/pdf/1909.13719.pdf最近的工作表明,数据增强有可能显著提高深度学习模型的泛化能力。最近,自动增强策略导致了图像分类和物体检测的最先进结果。虽然这些策略是为了提高验证精度而优化的,但它们也导致了半监督学习的最先进结果,并提高了对图像常见损坏的鲁棒性。大规模采用这些方法的一个障碍是单独的搜索阶段,这增加了训练的复杂性并可能大大增加计算成本。此外,由于单独的搜索阶段,这些方法无法根据模型或数据集的大小来调整正则化强度。自动增强策略通常原创 2021-12-13 20:38:08 · 2940 阅读 · 0 评论 -
GradNorm:Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks,梯度归一化
GradNorm:Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks,梯度归一化转载 2021-04-06 20:47:32 · 242 阅读 · 0 评论 -
LARGE BATCH TRAINING OF CONVOLUTIONAL NETWORKS
LARGE BATCH TRAINING OF CONVOLUTIONAL NETWORKS加速大型卷积网络训练的一种常用方法是增加计算单元。然后使用数据并行同步随机梯度下降(SGD)进行训练,在计算单元之间划分mini-batch。随着节点数量的增加,batch size也会增加。但大批量训练往往导致模型精度较低。我们认为,目前的large batch训练方法(线性学习率缩放与warm-up)不够普遍,训练可能会出现分歧。为了克服这种优化困难,我们提出了一种新的基于Layer-wise Adaptive原创 2021-02-22 15:39:18 · 151 阅读 · 0 评论 -
OPTIMIZING DNN COMPUTATION WITH RELAXED GRAPH SUBSTITUTIONS
OPTIMIZING DNN COMPUTATION WITH RELAXED GRAPH SUBSTITUTIONS现有的深度学习框架通过执行贪婪的基于规则的图变换来优化DNN模型的计算图,一般只考虑严格(strictly)提高运行时性能的变换。我们提出了relaxed graph substitutions,通过relaxing严格的性能提升约束,可以探索复杂的图优化,这大大增加了语义上等价的计算图的空间,可以通过重复应用一组合适的图变换来发现。我们引入了一种在一组relaxed graph subs原创 2021-02-19 11:52:20 · 653 阅读 · 0 评论 -
TASO
TASO: Optimizing Deep Learning Computation with Automatic Generation of Graph Substitutions现有的深度神经网络(deep neural network,DNN)框架采用人工设计的图形变换来优化DNN的计算图形。这种方法忽略了可能的图优化,并且很难扩展,因为新的DNN算子是定期引入的。我们提出了TASO,第一个自动生成图替换的DNN计算图优化器.TASO将一个算子规范列表作(a list of operator sp原创 2021-02-19 19:28:23 · 1537 阅读 · 0 评论 -
一文搞懂神经网络混合精度训练
一文搞懂神经网络混合精度训练转载 2021-02-02 11:27:29 · 183 阅读 · 0 评论 -
ADADELTA AN ADAPTIVE LEARNING RATE METHOD
ADADELTA: AN ADAPTIVE LEARNING RATE METHOD参考:[自适应学习率调整AdaDelta](https://www.cnblogs.com/neopenx/p/4768388.html)我们提出了一种新的梯度下降的逐维学习率方法ADADELTA。该方法仅使用一阶信息随时间动态地适应,并且除了一般的随机梯度下降外,具有最小的计算开销。该方法不需要人工调整学习速率,对噪声梯度信息、不同模型结构选择、不同数据模式和超参数选择具有鲁棒性。与其他方法相比,我们在分布式集群环境下翻译 2020-07-05 23:09:24 · 597 阅读 · 0 评论 -
Adagrad
AdagradAdagrad [3,Adaptive Subgradient Methods for Online Learning and Stochastic Optimization] 就是这样一种解决这个问题的基于梯度的优化算法:根据参数来调整学习率,对于不常见的参数给予更大的更新,而对于常见的给予更小的更新。因此,Adagrad 非常适用于稀疏数据。Dean 等人 [4,Large Scale Distributed Deep Networks] 发现 Adagrad 能够大幅提高 SGD 的鲁翻译 2020-07-05 23:04:34 · 529 阅读 · 0 评论 -
ADAM A METHOD FOR STOCHASTIC OPTIMIZATION
ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION1 INTRODUCTION基于随机梯度的优化方法在许多科学和工程领域都具有重要的实际意义。这些领域中的许多问题都可以归结为一类标量参数化目标函数的优化问题,要求对其参数进行最大化或最小化。如果函数的参数是可微的,梯度下降法是一种相对有效的优化方法,因为一阶偏导数的计算,所有参数的计算复杂度都与函数的计算复杂度相同。通常,目标函数是随机的。例如,许多目标函数由在不同数据子样本上评估的子函数之和组成;在这种情况下,通过采用翻译 2020-07-05 23:02:46 · 1182 阅读 · 0 评论 -
RMSProp优化算法
RMSProp优化算法参考:【优化算法】一文搞懂RMSProp优化算法而本文要介绍的RMSProp优化算法是AdaGrad算法的一种改进。首先给出AdaGrad算法:再抛出原始的RMSProp算法:可以看出RMSProp优化算法和AdaGrad算法唯一的不同,就在于累积平方梯度的求法不同。RMSProp算法不是像AdaGrad算法那样暴力直接的累加平方梯度,而是加了一个衰减系数来控制历史信息的获取多少。见下:1.AdaGrad算法的改进。鉴于神经网络都是非凸条件下的,RMSProp在非凸条件翻译 2020-07-05 22:59:52 · 600 阅读 · 0 评论 -
使用动量(Momentum)的SGD、使用Nesterov动量的SGD
使用动量(Momentum)的SGD、使用Nesterov动量的SGD参考:使用动量(Momentum)的SGD、使用Nesterov动量的SGD一. 使用动量(Momentum)的随机梯度下降虽然随机梯度下降是非常受欢迎的优化方法,但其学习过程有时会很慢。动量方法旨在加速学习(加快梯度下降的速度),特别是处理高曲率、小但一致的梯度,或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均,并且继续沿该方向移动。简单介绍一下什么是指数加权平均(exponential weight average翻译 2020-07-05 22:56:54 · 6159 阅读 · 0 评论 -
随机梯度下降算法SGD
随机梯度下降算法SGD参考:为什么说随机最速下降法 (SGD) 是一个很好的方法?假如我们要优化一个函数f(x)f(x)f(x) ,即找到它的最小值,常用的方法叫做 Gradient Descent (GD),也就是最速下降法。说起来很简单, 就是每次沿着当前位置的导数方向走一小步,走啊走啊就能够走到一个好地方了。如上图, 就像你下山一样,每一步你都挑最陡的路走,如果最后你没摔死的话,一般你很快就能够走到山脚。用数学表示一下,就是xt+1=xt−ηt∇f(xt)x_{t+1}=x_t-\eta_t翻译 2020-07-05 22:53:35 · 1614 阅读 · 0 评论