论文笔记Evolving Fully Automated Machine Learning via Life-Long Knowledge Anchors

摘要

自动化机器学习
成就:人工提取特征、模型设计
例子:NAS、optimizer selection
缺陷:data cleaning、model ensemble,仍需要人为干预,局部最优

本文工作:提出完整的AutoML流水线,处理从数据处理、特征提取、模型生成、选择、训练
创新点:完整的学习过程,众生知识锚点的设计,从根本上加速整个范围的研究
锚点:记录流水线上细节信息,利用进化算法整合
实验结果:在多个数据集多模态上取得了较好的结果…

介绍

1. 现存的Self-AutoML

  1. 两种Self-AutoML:
    1)NAS:细粒度的搜索空间、模型设计部分的变化
    2)传统AutoML方法:数据预处理和后向传播中的超参数的设置都是孤立的
  2. 具体缺陷:
    1)无法确保各自独立,因而造成局部最优
    2)细粒度的搜索空间增加设计和部署的负担,AutoML应该减少人为参与
    3)过拟合的出现
  3. 结果:在目标探测和语义分割上表现不好

2.本文提出的Fully-AutoML

  1. 在一个粗粒度的空间范围内,打破孤立,非人为连接所有离散的部分,能够使流水线在无ML下建立
  2. Contradicting Grid Search:首先在粗粒度网格进行搜索,然后在表现较好配置点上进行细粒度的搜索。
  3. 知识锚点的利用仍然是一个待解决的问题
  4. 利用进化计算加速搜索效率,

相关工作

1.自动化机器学习

  1. 早期为了获取超参数,通过粒子群算法
  2. 后面为了探索不同的部分的黑箱优化

2.终生学习和元学习

  1. 终生学习
    1)在不同的任务中能够基于先验知识不断优化自己的表现
    2)困难:灾难性的遗忘
    3)修正方法:
    a)存储足够的不同任务的数据
    b)正则化(regularization)修改loss公式,迁移学习
    c)模型分为两部分,一部分分享所有任务学习到的参数,一部分学习当前任务的参数

  2. 元学习
    1)优化整体学习算法的模型(超参数的优化)
    2)元特征类似于本文提出的知识锚点,可以用于选择

  3. 本文方法
    1)综合终身学习和元学习
    2)介绍新的附带概率样本的元特征去降低人类干涉,并避免了过拟合

方法

搜索空间设计

  1. 组成部分:数据预处理、特征工程、模型选择、模型优化、集成
  2. 模型集成决定了模型数量,模型选择决定了优化方法的范围
  3. 每个模型是由三步选择生成的,第一步是是否用模型,决定了模型的数量;第二步是模型中的算法选择;第三步是选择优化方法和超参数

进化算法

  1. 以一组知识锚点为初始化种群
  2. 每一代选择T<P最好的个体作为父代,经过交叉变异产生新个体后再去除最坏的T个个体
  3. 直到最后达到最大迭代次数或者前P/2不再更新为止

终生学习锚点初始化

  1. 首先用不带锚点的进化算法寻找一个表现较好的种群
  2. 然后用数据驱动的方法在搜索空间内获得初始解

1 用预定的K个函数挖掘数据集的K个特征
2 对于给定的数据集,我们可以根据预设的K个函数求出数据集之间的距离
3 求出距离后,用softmax函数获取概率
4 然后根据概率用此次取得的最优解作为一个知识锚点并且作为本次初始化的种群之一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值