《Selection via proxy: efficient data selection for deep learning》论文研读

本文研读了《Selection via proxy》论文,探讨如何通过小型代理模型进行数据选择,以降低深度学习中数据选择的成本。论文提出SVP方法,使用计算复杂度低的代理模型替代大型目标模型,实现主动学习和核心集选择,有效减少深度模型的训练时间和标注需求。实验在CIFAR和ImageNet等数据集上验证了该方法的有效性。
摘要由CSDN通过智能技术生成

一、 论文信息

1. 论文题目

Seletion via proxy: efficient data selection for deep learning
通过代理进行选择:深度学习的高效数据选择

2. 作者

Cody Coleman, Christopher Yeh, Stephen Mussmann, Baharan Mirzasoleiman, Perter Baillis, Percy Liang, Jure Leskovec, Matei Zaharia
单位:斯坦福大学

3. 发表信息

ICLR 2020

二、 研读笔记

0. 摘要

  1. 存在问题:现有的数据选择方法往往依赖于需要学习的特征表示,因而在深度学习中应用成本较高。
  2. 本文解决思路:通过一个小型代理模型进行数据选择。
  3. 方法思路:通过去除目标模型的隐藏层,采用更小的结构,训练更少的代数,从而创造的代理模型比原有模型训练快一个数量级。

1. 引言

  1. 主动学习:通过重复地在一小部分标注数据上训练模型,并给予模型的不确定性而选择额外的数据进行标注,达到从一众未标注的数据中选择样本进行标注的目的。
  2. 核心集选择:从一众标注或未标注的数据中选择一个子集,通过选择代表性样本,使子集能够准确逼近全部数据集。
  3. 现有问题:
    (1)现有的主动学习方法和核心集选择方法,在其选择样本前,都需要一些特征表示,因此,深度主动学习需要大量的标注数据。
    (2)此外,批主动学习仍然需要对于每一批进行全模型训练,这对于大规模模型而言是昂贵的。
    (3)核心集通过采用手工设定的特征和简单模型、预训练辅助任务来降低深度学习模型的训练时间。
  4. 本文方法的主要思想:SVP使用来自单独的、计算计算复杂度低的代理模型的特征表示来代替来自更大更精确的目标模型的表示。
  5. 实验数据集:CIFAR10,CIFAR100,ImageNet,Amazon Review Polarity,Amazon Review Full。
  6. 对比方法:
    (1)主动学习:最小置信不确定采样,贪婪k中心方法
    (2)核心集选择:最大熵不确定采样,贪婪k中心

2. 方法

2.0 概述

  1. SVP示意图
    在这里插入图片描述
    (1)主动学习:采用同传统方法相同的流程,不同的是用代理模型替换原有的目标模型。
    (2)核心集选择:基于代理模型,学习数据的表示,并选择样本用于训练目标模型。

2.1 主动学习

  1. 给定一组无标注数据 U = { x i } i ∈ [ n ] U = \left\{ \mathbf{x}_i\right\}_{i\in[n]} U={ xi}i[n]
  2. 设每个样本i.i.d地来自 X \it{X}
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值