论文阅读 AutoML: A Survey of the State-of-the-Art

最新推荐文章于 2022-11-20 22:09:12 发布

kindred_joe

最新推荐文章于 2022-11-20 22:09:12 发布

阅读量1.2k

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/kindred_joe/article/details/102839989

版权

论文阅读专栏收录该内容

6 篇文章

订阅专栏

论文阅读 AutoML: A Survey of the State-of-the-Art

摘要

略

简介

从两个角度介绍NAS。首先是模型的结构，常见的结构包括整体结构、基于单元的结构、层次结构和基于态射的结构等。其次是模型的超参数优化（HPO）。常用的方法有强化学习、进化算法（ea）和梯度下降（gd）、贝叶斯优化等。除了NAS，automl还涉及到其他已经研究了很长时间的技术，我们根据机器学习流水线将这些技术分为以下几类，：数据准备、特征工程、模型生成和模型评估。
文章贡献

从机器学习整个流水线介绍AutoML
介绍比较NAS算法
open problems

数据准备

–数据收集

数据综合：数据扩展：数据扭曲和合成过采样；对抗网络生成
数据搜索：标签不够：主动学习选择最“不确定”的未标记的单个示例，要求人类标记，然后它将迭代地标记其余数据。为了将人从标签中抽离出来，进一步加快标签过程，提出了许多半监督学习自标签方法，可归类为self-training, co-training, co-learning。数据不平衡问题：SMOTE技术（Synthetic Minority Over-Sampling Technique ），生成新数据替代对大规模的数据的上/下采样。

–数据清洗

标准化、缩放、编码
图片自标注

特征工程

–特征选择

减少不相关和冗余特征。
特征选择搜索策略可分为：完整、启发式、随机。
特征子集评分方法可分为：过滤方法（散度/相关性+阈值），wrapper（分类精度），embedding

– 特征构造

–特征提取

降维

模型生成

–NAS模型结构

从一个搜索空间选择模型组件。搜索空间通常预定义。操作可以大致分为卷积、池化、连接、元素加法、跳过连接等。操作参数通常也是预定义的。
代表性结构：

整体结构：需要大量资源寻找最佳结构，并且可移植性差。
基于单元的结构：找到cell然后将cell堆叠
层次结构：
基于网络形态的结构：将现有神经网络中的信息转换成新神经网络。

–NAS超参数优化

网格随机搜索：网格搜索缺点是会搜索不重要的参数。改进：先进性粗搜索找到大致区域再进行精细搜索。
hyperband算法权衡时间和性能，改进随机搜索的缺点。
强化学习：基于强化学习的算法包括两部分 1、RNN控制器每代产生新的子网络 2、奖励网络训练评估子网络并更新控制器。缺点是计算资源大。NasNet、BlockQNN和ENAS对计算资源消耗有所提升。
进化算法：EA是基于种群的元启发式优化算法。不同的基于EA的参数优化方法可能使用不同的编码方案表示网络，分为直接和间接编码方案。间接编码指定用于构建网络的生成规则，并允许更紧凑的表示。进化算法包括：选择、交叉、编译、更新。
选择包含三种策略：适应度、排序选择、锦标赛选择。交叉方法和编码方式有关
贝叶斯优化：在网格搜索或进化算法搜索中，性能计算是独立的，性能较差的区域会被反复测试。贝叶斯优化构造目标函数的概率模型，使用概率模型选择超参数。Sequential model-based optimization（SMBO）是贝叶斯优化的一种简介形式。
X是搜索空间，D是采样的样本，M是模型。
根据概率模型，贝叶斯优化可分为高斯过程、树参数估计、随机森林。
梯度下降：