模型自动寻优-AutoML

模型自动寻优-AutoML

为了帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能最小化编程时间和计算资源。它既可以单机运行,也可以在分布式机器设置上运行。
神经网络的成功通常取决于在多种任务上的泛化性能。然而,设计此类神经网络很有难度,因为研究社区对神经网络如何泛化仍没有充分的了解:对于给定问题,什么样的神经网络是适合的?深度如何?应该使用哪种层?LSTM 层就可以了,还是使用 Transformer 更好一些?抑或将二者结合?集成或蒸馏会提升模型性能吗?

Model Search 以两种方式实现迁移学习,分别是知识蒸馏和权重共享。知识蒸馏通过添加一个与高效模型的预测相匹配的损失项,提升候选对象的准确率。权重共享则通过复制先前训练模型中的适当权重并随机初始化其余权重,从先前训练的候选对象中(经过突变)bootstrap 一些参数。这种方式不仅可以加速训练过程,还有可能发现更多更好的架构。
Model Search 系统包含多个训练器、一种搜索算法、一种迁移学习算法和一个存储多种评估模型的数据库。该系统能够以自适应和异步的方式运行多种机器学习模型(采用不同架构和训练方法)的训练和评估实验。当每个训练器单独执行训练时,所有训练器共享从实验中获得的知识。
在每个轮次开始时,搜索算法查找所有已完成的试验,并使用集束搜索(beam search)来决定接下来要尝试的部分。之后,该搜索算法在目前发现的最佳架构之一上调用突变,并将生成的模型分配回训练器。
Model Search 用最少的迭代次数来改进生产模型。谷歌研究者在近期一篇论文《Improving Keyword Spotting and Language Identification via Neural Architecture Search at Scale》中展示了 Model Search 在语音领域的性能,它能够发现关键词检测与语言识别模型。只用了不到 200 次的迭代,Model Search 得到的模型就优于专家设计的内部 SOTA 生产模型,并且前者的训练参数少了大约 13 万个(184K 参数 vs. 315K 参数)
GitHub 地址:https://github.com/google/model_search

减小神经网络大小

能够让神经网络的大小减小到六分之一,且无需花费更多的资源重新训练。神经网络压缩是指在对神经网络性能影响不大的情况下,通过有关方法来减少网络的参数和存储空间,大体上可以分为近似,量化和剪枝三类方法。
论文链接:https://arxiv.org/abs/2002.00623

自适应深度元学习系统 Meta-Delta


Meta-Learners 参赛团队提出了自适应深度元学习系统 Meta-Delta 来实现轻量级、高效、高泛化性的元学习模型。
随着机器学习解决实际问题的日益复杂化,元学习,特别是深度元学习,近期受到了来自产学研各界越来越多的关注,成为人工智能领域最热门的研究方向之一。
Meta-Delta 论文下载地址:http://mn.cs.tsinghua.edu.cn/xinwang/PDF/AAAI21_MetaDelta.pdf
Meta-Delta 系统源码链接:https://github.com/Frozenmad/MetaDelta

深度学习归一化

在传递给机器学习模型的数据中,我们需要对数据进行归一化(normalization)处理。在数据归一化之后,数据被「拍扁」到统一的区间内,输出范围被缩小至 0 到 1 之间。人们通常认为经过如此的操作,最优解的寻找过程明显会变得平缓,模型更容易正确的收敛到最佳水平。
DeepMind 的研究人员提出了一种不需要归一化的深度学习模型 NFNet,其在大型图像分类任务上却又实现了业内最佳水平(SOTA)
DeepMind 研究科学家 Andrew Brock 表示:「我们专注于开发可快速训练的高性能体系架构,已经展示了一种简单的技术(自适应梯度裁剪,AGC),让我们可以训练大批量和大规模数据增强后的训练,同时达到 SOTA 水平。」

NFNet 是不做归一化的 ResNet 网络。具体而言,该研究贡献有以下几点:
提出了自适应梯度修剪(Adaptive Gradient Clipping,AGC)方法,基于梯度范数与参数范数的单位比例来剪切梯度,研究人员证明了 AGC 可以训练更大批次和大规模数据增强的非归一化网络。
设计出了被称为 Normalizer-Free ResNets 的新网络,该方法在 ImageNet 验证集上大范围训练等待时间上都获得了最高水平。NFNet-F1 模型达到了与 EfficientNet-B7 相似的准确率,同时训练速度提高了 8.7 倍,而 NFNet 模型的最大版本则树立了全新的 SOTA 水平,无需额外数据即达到了 86.5%的 top-1 准确率。
如果在对 3 亿张带有标签的大型私人数据集进行预训练,随后针对 ImageNet 进行微调,NFNet 可以比批归一化的模型获得更高的 Top-1 准确率:高达 89.2%。
论文链接:https://arxiv.org/abs/2102.06171
DeepMind 还放出了模型的实现:https://github.com/deepmind/deepmind-research/tree/master/nfnets

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值