泛化
文章平均质量分 94
ML中的泛化研究
静静喜欢大白
专注于GNN领域前沿技术学习与分享、中科院计算所学术媛一枚、喜欢美食旅行
展开
-
【模型优化】梯度中心化:加速训练过程,提高泛化性能,以及对于微调预训练模型的兼容性
转载深度学习与图网络目录引言研究贡献梯度中心化研究动机GC 公式GC 嵌入到 SGDM/Adam 中,效果如何?GC 的特性提升泛化性能加速训练过程实验结果使用方法作者信息引言优化技术何其多也!比如批归一化、权重标准化……但现有的优化方法大多基于激活或权重执行,最近阿里达摩院的研究者另辟蹊径,直接对梯度下手,提出全新的梯度中心化方法。只需一行代码即可嵌入现有的 DNN 优化器中,还可以直接对预训练模型进行微调。优化技术对于深度神经网络 ..原创 2020-05-21 17:46:39 · 1572 阅读 · 0 评论 -
【泛化误差上界(证明详推)】
转载Cyrus前置知识:exp() : 以e为底的指数函数,括号内是具体内容loge : 1.loge =lne =12.loge=lge=log(e) = 0.43429448190324 (摘自百度 : )笔者在一个公式上因为这个卡了15分钟)好了,先给出书上定义:接下来,我们要了解一下Hoeffding不等式 (咳咳,上书!!!)emmmm一开始看到这个不等式我是有点小难受的,特别是转换到下一页的第一条公式。没事,我们慢慢捋一捋。然后就...转载 2020-07-14 15:38:17 · 949 阅读 · 0 评论 -
【别用大批量mini-batch训练神经网络,用局部SGD】Don’t Use Large Mini-batches, Use Local SGD
转载 https://blog.csdn.net/weixin_34356138/article/details/891588342020 ICLR Don’t Use Large Mini-batches, Use Local SGD \\介绍\\随机梯度下降(SGD)由于其极高的效率,成为目前大多数机器学习应用中最常见的训练方原创 2020-07-15 16:09:05 · 1654 阅读 · 1 评论 -
【模型性能1-泛化原因分析】On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima
转载 https://blog.csdn.net/zhangboshen/article/details/72853121这是一篇发表在ICLR2017上面的文章。这篇文章探究了深度学习中一个普遍存在的问题——使用大的batchsize训练网络会导致网络的泛化性能下降(文中称之为Generalization Gap)。文中给出了Generalization Gap现象的解释:大的batchsize训练使得目标函数倾向于收敛到sharp minima(类似于local minima),sharp min原创 2020-06-05 14:14:33 · 2587 阅读 · 0 评论 -
【模型性能2-泛化产生】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
转载https://blog.csdn.net/xxiaozr/article/details/80346381 Abstract:这篇论文发现,在 ImageNet dataset 上使用 large minibatch 会导致优化困难,但是当这个问题解决了,模型具有更好的泛化能力,并且没有精度上的损原创 2020-06-05 13:16:28 · 405 阅读 · 0 评论 -
【泛化误差论文必看】
参考人工智能前沿讲习的泛化误差专题1、背景训练集往往只是数据总体的一部分,无法包含所有可能的情况,训练出的学习算法在训练集和非训练集上的表现会是不一样的,我们使用泛化误差来度量这一差距,这也是机器学习理论最重要的问题之一。2、论文必读2.1、3篇领域经典1)Understanding Deep Learning Requires Rethinking Generalization. (ICLR 2017)ICLR 2017的最佳会议论文。作者通过一些很有意思的实验(比如ra..翻译 2020-07-14 16:43:01 · 993 阅读 · 0 评论 -
【模型性能-SGD三个参数理解】Epoch、Batchsize、Batchnumber、Iterations 理解
梯度下降法首先让我们来回顾一下这个常见的不能再常见的算法。梯度下降法是机器学习中经典的优化算法之一,用于寻求一个曲线的最小值。所谓"梯度",即一条曲线的坡度或倾斜率,"下降"指代下降递减的过程。梯度下降法是迭代的,也就是说我们需要多次计算结果,最终求得最优解。梯度下降的迭代质量有助于使输出结果尽可能拟合训练数据。梯度下降法中有一个称为学习率的参数,如上图左所示,在算法开始时,步长更大,即学习率更高。随着点的下降,步长变短,即学习率变短。此外,误差函数也在不断减小。在训练模型时,如果训练数据过多,无原创 2020-05-15 22:50:12 · 2285 阅读 · 0 评论 -
【模型泛化:偏差、方差、噪声】
转载 https://blog.csdn.net/Robin_Pi/article/details/104539998 模型泛化1. 泛化性能分析1.1 概论1.原创 2020-07-05 16:14:04 · 1864 阅读 · 0 评论