论文阅读 AutoML: A Survey of the State-of-the-Art

论文阅读 AutoML: A Survey of the State-of-the-Art

摘要

简介

从两个角度介绍NAS。首先是模型的结构,常见的结构包括整体结构、基于单元的结构、层次结构和基于态射的结构等。其次是模型的超参数优化(HPO)。常用的方法有强化学习、进化算法(ea)和梯度下降(gd)、贝叶斯优化等。除了NAS,automl还涉及到其他已经研究了很长时间的技术,我们根据机器学习流水线将这些技术分为以下几类,:数据准备、特征工程、模型生成和模型评估。
文章贡献

  • 从机器学习整个流水线介绍AutoML
  • 介绍比较NAS算法
  • open problems

数据准备

–数据收集
  • 数据综合:数据扩展:数据扭曲和合成过采样;对抗网络生成
  • 数据搜索:标签不够:主动学习选择最“不确定”的未标记的单个示例,要求人类标记,然后它将迭代地标记其余数据。为了将人从标签中抽离出来,进一步加快标签过程,提出了许多半监督学习自标签方法,可归类为self-training, co-training, co-learning。数据不平衡问题:SMOTE技术(Synthetic Minority Over-Sampling Technique ),生成新数据替代对大规模的数据的上/下采样。
–数据清洗

标准化、缩放、编码
图片自标注

特征工程

–特征选择

减少不相关和冗余特征。
特征选择搜索策略可分为:完整、启发式、随机。
特征子集评分方法可分为:过滤方法(散度/相关性+阈值),wrapper(分类精度),embedding

– 特征构造
–特征提取

降维

模型生成

–NAS模型结构

从一个搜索空间选择模型组件。搜索空间通常预定义。操作可以大致分为卷积、池化、连接、元素加法、跳过连接等。操作参数通常也是预定义的。
代表性结构:

  • 整体结构:需要大量资源寻找最佳结构,并且可移植性差。
  • 基于单元的结构:找到cell然后将cell堆叠
  • 层次结构:
  • 基于网络形态的结构:将现有神经网络中的信息转换成新神经网络。
–NAS超参数优化
  • 网格 随机搜索:网格搜索缺点是会搜索不重要的参数。改进:先进性粗搜索找到大致区域再进行精细搜索。
    hyperband算法权衡时间和性能,改进随机搜索的缺点。
  • 强化学习:基于强化学习的算法包括两部分 1、RNN控制器每代产生新的子网络 2、奖励网络 训练评估子网络并更新控制器。缺点是计算资源大。NasNet、BlockQNN和ENAS对计算资源消耗有所提升。
  • 进化算法:EA是基于种群的元启发式优化算法。不同的基于EA的参数优化方法可能使用不同的编码方案表示网络,分为直接和间接编码方案。间接编码指定用于构建网络的生成规则,并允许更紧凑的表示。进化算法包括:选择、交叉、编译、更新。
    选择包含三种策略:适应度、排序选择、锦标赛选择。交叉方法和编码方式有关
  • 贝叶斯优化:在网格搜索或进化算法搜索中,性能计算是独立的,性能较差的区域会被反复测试。贝叶斯优化构造目标函数的概率模型,使用概率模型选择超参数。Sequential model-based optimization(SMBO)是贝叶斯优化的一种简介形式。在这里插入图片描述
    X是搜索空间,D是采样的样本,M是模型。
    根据概率模型,贝叶斯优化可分为高斯过程、树参数估计、随机森林。
  • 梯度下降:

模型评估

一般方法是收敛后看结果,但是需要耗费资源。几种加快模型评估的方法:

  • 低保真度:减少数据量或低分辨率 ,减小模型大小
  • 迁移学习:共享参数等
  • 代理:基于代理的方法是近似于黑箱函数的另一个有力工具。
  • searly stop

NAS性能总结

Open Problem

  • 完整AutoML流水线
  • 可解释性
  • 可复制性
  • 灵活的编码:生成新的原语操作(如卷积、池化)
  • 更多领域
  • 终身学习:使用元学习(meta-learning)加快网络结构的搜索过程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值