[7]2019-ICDM-Learning to Sample:an Active Learning Framework 论文笔记

在这里插入图片描述 2019 − I C D M 2019-ICDM 2019ICDM
本文主要在AL中结合了boost learning(Adaboost),利用了以往模型的输出值(只是不太懂为什么最后的模型结合是所有输出值直接求和,而不加权求和);sample model(回归器)将样本x作为输入,boost model的损失作为输出,去拟合不确定性,同时考虑了多样性,从而去挑选最有代表性的样本。sample model的思想应该是建立在boost learning的meta learner基础上的,从x->y延伸到x->做了处理的loss。
这篇文章与Learning Loss for Active Learning的区别主要在两点:

  1. target model不同:Learning Loss for Active Learning用的是普通的神经网络,LTS用的boost learning;
  2. loss prediction model输入不同:Learning Loss for Active Learning是target model隐藏层输出级联->loss,LTS则是x->loss.
    当然还有其他具体的差别,比如loss的设计等等,目前不主要考虑。
一. 摘要(Abstract)
1. 动机(Motivation)
  • 在AL中使用Meta-learning是学习最好的AL策略的潮流,然而需要大量的训练数据(与AL的本意相违背),如果数据量小了将导致表现性能差(如:不稳定性和过拟合)。
2. 贡献(Contribution)
  • 提出LTS(Learning To Sample)框架(sampling model G G G+boosting model F F F:迭代中互相优化)。
  • 该框架在优化过程中,sampling model将uncertainty采样和diversity采样并为一个过程。
  • 实验结果表明,在预算有限或者数据不平衡的情况下,该方法表现突出。此外,LTS还能解决AL中的冷启动问题
二. 引言(Introduction)
1. 以往的采样策略
  • uncertainty sample;
  • query-by-committee;
  • error or variance minimization;
  • expected model change.
2. 提出LTS前的观察(Observations)
  • uncertainty sample:虽然流行,但是它趋于选择具有相似特征的样本;
  • diversity sample:选择不同类别的样本(与uncertainty sample互补);
  • meta-learning:能找到最好的整合(上述两种采样策略)方法。
    在这里插入图片描述
3. 注意(LTS不受限于具体的分类/回归ML模型)
  • boosting model F F F 能替换为任意的分类模型;
  • sampling model G G G 中的回归器能被替换为任意的回归模型。
三. LTS框架
  • 整体框架(绿色:Boosting Model;蓝色:Sampling Model)
    在这里插入图片描述
1. Boosting Model

t t t次迭代

  • 训练集: T ( t ) T^{(t)} T(t)
    T ( 1 ) ⊆ T ( 2 ) ⊆ ⋅ ⋅ ⋅ ⊆ T ( n ) T^{(1)} \subseteq T^{(2)} \subseteq ···\subseteq T^{(n)} T(1)T(2)T(n)
    T ( n ) = T = { ( x i , y i ) ∣ x i ∈ X , y i ∈ R } T^{(n)}=T=\{(x_i,y_i)|x_i\in X,y_i\in R\} T(n)=T={(xi,yi)xiX,yiR}
    ∣ T ( n ) ∣ ≤ ζ |T^{(n)}|\leq \zeta T(n)ζ:标注预算。
  • 函数: f ( t ) f^{(t)} f(t)
  • 预测(第 t t t次迭代第 i i i个样本预测值): y ^ i t = ∑ k = 1 t f ( k ) ( x i ) \hat y_{i}^t=\sum\limits_{k=1}^{t}f^{(k)}(x_i) y^it=k=1tf(k)(xi)
    为 什 么 是 求 和 , 而 不 是 加 权 求 和 ? \color{red}{为什么是求和,而不是加权求和?}
  • 损失函数:
    ∑ ( x i , y i ) ∈ T ( t ) l 1 ( y ^ i t , y i ) + Ω 1 ( f ( t ) ) \sum\limits_{(x_i,y_i)\in T^{(t)}}l_1(\hat y_i^t,y_i)+\Omega_1(f^{(t)}) (xi,yi)T(t)l1(y^it,yi)+Ω1(f(t))
    l 1 l_1 l1:微分损失函数;
    Ω 1 \Omega_1 Ω1:惩罚项。
  • Softmax层
    输入: 1 ( t ) = < l ( y ^ 1 , y 1 ) , l ( y ^ 2 , y 2 ) , . . . , l ( y ^ q , y q ) > 1^{(t)}=<l(\hat y_1, y_1), l(\hat y_2, y_2), ..., l(\hat y_q, y_q)> 1(t)=<l(y^1,y1),l(y^2,y2),...,l(y^q,yq)>,其中 q = ∣ T ( t ) ∣ q=|T^{(t)}| q=T(t)
    输出: z i ( t ) = S o f t m a x ( l i ( t ) ) z_i^{(t)}=Softmax(l_i^{(t)}) zi(t)=Softmax(li(t))
    其中 S o f t m a x ( l i ( t ) ) = e l i ( t ) / ∑ j = 1 q e l j ( t ) Softmax(l_i^{(t)})=e^{l_i^{(t)}}/\sum\limits_{j=1}^qe^{l_j^{(t)}} Softmax(li(t))=eli(t)/j=1qelj(t), l i ( t ) = l ( y ^ i , y i ) l_i^{(t)}=l(\hat y_i, y_i) li(t)=l(y^i,yi)
    为 什 么 要 s o f t m a x ? A : 猜 想 是 为 了 方 便 求 导 运 算 。 \color{red}{为什么要softmax?A:猜想是为了方便求导运算。} softmax?A:便
2. Sampling Model

(1)采样目标

  • 易被 boosting model 错分的样本;
  • 样本空间中具有多样性特征的样本;

(2)目标函数(最大化)
m a x i m i z e ∑ i = 1 k v i g ( t ) ( x i ) + α × Γ ( v ) maximize \sum\limits_{i=1}^kv_ig^{(t)}(x_i)+\alpha \times\Gamma({\rm v}) maximizei=1kvig(t)(xi)+α×Γ(v)
subject to ∣ ∣ v ∣ ∣ 1 = ∣ Δ ( t ) ∣ ||{\rm v}||_1=|\Delta^{(t)}| v1=Δ(t)
Δ ( t ) 是 什 么 ? \color{red}{\Delta^{(t)}是什么?} Δ(t)
其中,

  • k = ∣ X U ( t ) ∣ k=|X_U^{(t)}| k=XU(t):第t轮迭代无标记样本池个数;
  • v = ( v 1 , v 2 , . . . , v k ) T ∈ { 0 , 1 } k {\rm v}=(v_1,v_2, ... , v_k)^T\in\{0,1\}^k v=(v1,v2,...,vk)T{0,1}k:boosting model 的 输 出 值 ? A : 应 该 不 是 , 而 是 控 制 训 练 样 本 分 布 的 参 数 , 选 中 则 标 记 为 1 , 用 最 后 的 惩 罚 项 来 控 制 分 布 。 \color{red}{的输出值?A:应该不是,而是控制训练样本分布的参数,选中则标记为1,用最后的惩罚项来控制分布。} A:1
    v i = { 1 , x i 被选中 0 , x i 未 被 选 中 v_i= \begin{cases} 1, & \text {$x_i$被选中} \\ 0, & \text{$x_i未被选中$} \end{cases} vi={1,0,xi被选中xi未被选中
  • 回归器 g ( t ) ( x i ) g^{(t)}(x_i) g(t)(xi):用例 x i x_i xi的不确定分数(uncertainty score);
  • 正则化项 Γ ( v ) \Gamma({\rm v}) Γ(v) :控制已选样本的分布,确保其在样本空间的多样性;
  • α \alpha α:平衡样本不确定度和多样性的影响;
    { 样 本 多 样 性 影 响 更 大 , α >1 样 本 不 确 定 度 影 响 更 大 , α  < 1 \begin{cases} 样本多样性影响更大, & \text {$\alpha$>1} \\ 样本不确定度影响更大, & \text {$\alpha$ < 1} \end{cases} {,,α>1α < 1
四. 采样策略(Sample Strategies)
  • 不同采样策略的对比
    在这里插入图片描述
1. 不确定性采样(Uncertainty Sample)

(1)不确定性衡量标准:boosting model的表现性能(train loss)。
(2) 第 t t t轮迭代,训练 g ( t ) g^{(t)} g(t)的损失函数
∑ ( x i , z i ( t ) ) ∈ A ( t ) w i ( t ) l 2 ( g ( t ) ( x i , z i ( t ) ) ) + Ω 2 ( g ( t ) ) \sum\limits_{(x_i,z_i^{(t)})\in A^{(t)}}w_i^{(t)}l_2(g^{(t)}(x_i,z_i^{(t)}))+\Omega_2(g^{(t)}) (xi,zi(t))A(t)wi(t)l2(g(t)(xi,zi(t)))+Ω2(g(t))
其中:

  • z ( t ) = < z 1 ( t ) , . . . , z q ( t ) > z^{(t)}=<z_1^{(t)},...,z_q^{(t)}> z(t)=<z1(t),...,zq(t)>:第 t t t轮迭代 boost model F 的 softmax 层输出, q = ∣ T ( t ) ∣ q=|T^{(t)}| q=T(t)
  • A ( t ) = { ( x i , z i ( t ) ) ∣ ( x i , y i ) ∈ T ( t ) , z i ( t ) ∈ [ 0 , 1 ] } A^{(t)}=\{(x_i,z_i^{(t)})|(x_i,y_i)\in T^{(t)},z_i^{(t)}\in [0,1]\} A(t)={(xi,zi(t))(xi,yi)T(t),zi(t)[0,1]}
    g ( t ) 拟 合 的 什 么 ? A : 感 觉 是 输 入 x i , 输 出 z i ( t ) 。 \color{red}{g^{(t)}拟合的什么?A:感觉是输入x_i,输出z_i^{(t)}}。 g(t)Axizi(t)
  • w i ( t ) w_i^{(t)} wi(t) x i x_i xi的权重,迭代过程中 动 态 调 整 \color{red}{动态调整}
  • l 2 l_2 l2:微分损失函数;
  • Ω 2 ( g ( t ) ) \Omega_2(g^{(t)}) Ω2(g(t)): g ( t ) g^{(t)} g(t)复杂度的惩罚项。
2. 多样性采样(Diversity Sample)

(1)划分样本空间,同一group的样本更相似。
(2)假设, X ( t ) X^{(t)} X(t)中的无标记样本被划分为 { X 1 ( t ) , . . . , X b ( t ) } \{X_1^{(t)}, ..., X_b^{(t)}\} {X1(t),...,Xb(t)}
Γ ( v ) = ∣ ∣ v ∣ ∣ 2 , 1 ( l 2 , 1 范 函 数 ) = ∑ j = 1 b ∣ ∣ v j ∣ ∣ 2 \Gamma({\rm v})=||{\rm v}||_{2,1}(l_{2,1}范函数)=\sum\limits_{j=1}^b||{\rm v}_j||_2 Γ(v)=v2,1(l2,1)=j=1bvj2
其中:

  • v {\rm v} v被划分为 { v j } j = 1 b , v j ∈ { 0 , 1 } m , m = ∣ X j ( t ) ∣ {\{{\rm v}_j\}_{j=1}^b, {\rm v}_j\in {\{0,1\}^m}, m=|X_j^{(t)}|} {vj}j=1b,vj{0,1}m,m=Xj(t);
    不 懂 v 的 含 义 \color{red}{不懂v的含义} v
五. 算法描述(Algorithm Description)

在这里插入图片描述

1. 动态调整权重(How to decide dynamic weighted values for samples?)

(1)初始化(Intialization) 不 知 道 怎 么 利 用 的 这 个 初 始 化 权 重 。 \color{red}{不知道怎么利用的这个初始化权重。}
t t t轮迭代的每个新样本 x i x_i xi,即 ∀ x i ∈ Δ ( t − 1 ) \forall x_i \in \Delta^{(t-1)} xiΔ(t1):
w i ( t − 1 ) = 1 ∣ Δ ( t − 1 ) ∣ w_i^{(t-1)}=\frac{1}{|\Delta^{(t-1)}|} wi(t1)=Δ(t1)1
(2)调整(Adjustment) 没 懂 如 何 调 整 的 。 \color{red}{没懂如何调整的。}
A ( t ) A^{(t)} A(t)中每个样本 x i x_i xi的权重被重新计算:
w i ( t ) = w i ( t − 1 ) × e − 1 2 l n ( 1 − ϵ ( t − 1 ) ϵ ( t − 1 ) ) g ( t − 1 ) ( x i ) z i ( t − 1 ) Z t w_i^{(t)}=w_i^{(t-1)} \times \frac{e^{-\frac{1}{2}ln(\frac{1-\epsilon^{(t-1)}}{\epsilon^{(t-1)}})g^{(t-1)}(x_i)z_i^{(t-1)}}}{Z_t} wi(t)=wi(t1)×Zte21ln(ϵ(t1)1ϵ(t1))g(t1)(xi)zi(t1)
其中:

  • ϵ ( t − 1 ) = ∑ i z i ( t − 1 ) ∣ T ( t − 1 ) ∣ \epsilon^{(t-1)}=\frac{\sum_iz_i^{(t-1)}}{|T^{(t-1)}|} ϵ(t1)=T(t1)izi(t1)
  • Z t Z_t Zt:正则化因子,确保 A ( t ) A^{(t)} A(t)中所有样本的权重值和为1。
2. 划分样本空间(How to partition a sample space into groups?)

给定:
d d d:样本空间特征维数;
ζ \zeta ζ:标签预算;
n n n:迭代次数;
⇒ k = ⌈ ζ n d ⌉ d \Rightarrow k=\lceil \sqrt[d]{\frac{\zeta}{n}}\rceil^d k=dnζ d:groups数量。

3. 根据迭代次数分配标签预算(How to distribute label budget across iterations?)

每次迭代标签预算相等, ∣ Δ ( t ) ∣ = ζ / n , t ∈ [ 1 , n ] |\Delta^{(t)}|=\zeta/n, t\in [1,n] Δ(t)=ζ/n,t[1,n]

4. 讨论(Discuss)

(1)冷启动问题(cold start problem)
AL早期迭代时有标记样本少,代表性差。
(2)本文解决办法

  • 基于特征相似度 划分样本空间为 多个groups;
  • 正则化项 Γ ( v ) \Gamma(v) Γ(v)
六. 实验(Experiments)
1. 实验设置(Experimental Setup)
  • 三个不同的分类任务
    图片分类(image classification),工资级别预测(salary level prediction),实体解析(entity resolution)。
    (1)数据集(Dataset)
    在这里插入图片描述
    (2)Baseline methods
  • CART;
  • XG;
  • XG+RS;
  • XG+US;
  • XG+DS;
  • XG+LTS(E);

(3)衡量(Measures)

  • accuracy:Mnist和Adult;
  • precision,recall和f-measure:entity resolution。
    F M = 2 ∗ R e c a l l ∗ P r e c i s i o n R e c a l l + P r e c i s i o n FM=\frac{2*Recall*Precision}{Recall+Precision} FM=Recall+Precision2RecallPrecision

(4)标签预算(Label budgets)
∣ X ∣ |X| X的百分比。

2. 结果与讨论(Results and Discussion)

(1)不同标签预算下的表现
在这里插入图片描述
在这里插入图片描述
(2)冷启动问题和类别不平衡问题
标签预算小时,选择大的 α \alpha α能解决冷启动问题。

在这里插入图片描述
在这里插入图片描述

七. 相关工作
1. Active Learning
2. Learning based Active Learning
3. Boosting Techniques
  • 许多 boosting 技术用一些弱学习者(如:决策树,SVM)去构建一个强学习者;
  • 发展历程
名称特点第一次被提出其他
第一个boosting algorithmYoav Freund. Boosting a weak learning algorithm by majority. Information and computation, 1995.
第一个自适应boosting方法(AdaBoost)每次迭代过程中,基于真实表现,模型的参数(包括采样权重和附加学习者的权重)能够自适应。Yoav Freund, Robert E Schapire, et al. Experiments with a new boosting algorithm. In Proceedings of the International Conference on Machine Learning (ICML).
Gradient Boosting通过梯度下降法降低模型损失来解决分类回归问题。Jerome Friedman, Trevor Hastie, Robert Tibshirani, et al. Additive logistic regression: a statistical view of boosting. The annals of statistics, 2000.最流行的Gradient Boosting方法:XGBoost。Tianqi Chen and Carlos Guestrin. Xgboost: a scalable tree boosting system. In Proceedings of the 22nd international conference on Knowledge Discovery and Data mining (SIGKDD), 2016.
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值