SELECTION VIA PROXY: EFFICIENT DATA SELECTION FOR DEEP LEARNING 思考REID 数据考量

前几天对行人重试别进行了分类,从数据、特征、目标函数角度作为研究的重点。

这篇文章给涉及到训练数据的选择,可不可以在target中寻找少数量的样本进行标记,但是却能达到很好的效果呢?

在读这篇论文的时候,遇到了一些新的内容,包括如下:

active learning

core-set selection

least confidence uncertaintly sampling

greedy k-centers

 

    这里的active learning 主动学习,是指在训练模型的过程中,一边训练,一边寻找unlabel 数据中的一个或者一批,然后对这些数据进行标记,然后将这些数据再放到训练集中,进行训练。active learning 在训练的过程中,包括五个部分,分别是要训练的模型、未标记的数据集、已经标记的数据集、判定数据对目标模型的作用效果大小的模型、对无标记数据打标签的指导者。核心就是选择数据中的一部分最有价值的数据送入模型进行训练。下面这个图很好的描述了这个过程:

 

 

这里的oracle,代表着给数据打标签的部分。

在了解least confidence uncertainly sampel 的时候,需要先了解置信度和置信区间的内容。就看了看置信度和置信区间的内容,到知乎上搜索就有不错的回答。

这里又涉及了贪心算法的内容,greedy algorithm ,贪心算法就是在求解最优解的时候,是从局部看问题的的,每一步只选择当前情况下的最优解,是局部的最优解,贪心法的求解过程大概可以表述为:

Greedy(C)  //C是问题的输入集合即候选解集合
{
    S={ };  //初始解集合为空集
    while (not solution(S))  //集合S没有构成问题的一个解
    {
       x=select(C);    //在候选集合C中做贪心选择
       if feasible(S, x)  //判断集合S中加入x后的解是否可行
          S=S+{x};
          C=C-{x};
    }
    return S;
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值