2019
−
I
C
D
M
2019-ICDM
2019−ICDM
本文主要在AL中结合了boost learning(Adaboost),利用了以往模型的输出值(只是不太懂为什么最后的模型结合是所有输出值直接求和,而不加权求和);sample model(回归器)将样本x作为输入,boost model的损失作为输出,去拟合不确定性,同时考虑了多样性,从而去挑选最有代表性的样本。sample model的思想应该是建立在boost learning的meta learner基础上的,从x->y延伸到x->做了处理的loss。
这篇文章与Learning Loss for Active Learning的区别主要在两点:
- target model不同:Learning Loss for Active Learning用的是普通的神经网络,LTS用的boost learning;
- loss prediction model输入不同:Learning Loss for Active Learning是target model隐藏层输出级联->loss,LTS则是x->loss.
当然还有其他具体的差别,比如loss的设计等等,目前不主要考虑。
一. 摘要(Abstract)
1. 动机(Motivation)
- 在AL中使用Meta-learning是学习最好的AL策略的潮流,然而需要大量的训练数据(与AL的本意相违背),如果数据量小了将导致表现性能差(如:不稳定性和过拟合)。
2. 贡献(Contribution)
- 提出LTS(Learning To Sample)框架(sampling model G G G+boosting model F F F:迭代中互相优化)。
- 该框架在优化过程中,sampling model将uncertainty采样和diversity采样并为一个过程。
- 实验结果表明,在预算有限或者数据不平衡的情况下,该方法表现突出。此外,LTS还能解决AL中的冷启动问题。
二. 引言(Introduction)
1. 以往的采样策略
- uncertainty sample;
- query-by-committee;
- error or variance minimization;
- expected model change.
2. 提出LTS前的观察(Observations)
- uncertainty sample:虽然流行,但是它趋于选择具有相似特征的样本;
- diversity sample:选择不同类别的样本(与uncertainty sample互补);
- meta-learning:能找到最好的整合(上述两种采样策略)方法。
3. 注意(LTS不受限于具体的分类/回归ML模型)
- boosting model F F F 能替换为任意的分类模型;
- sampling model G G G 中的回归器能被替换为任意的回归模型。
三. LTS框架
- 整体框架(绿色:Boosting Model;蓝色:Sampling Model)
1. Boosting Model
第 t t t次迭代
- 训练集:
T
(
t
)
T^{(t)}
T(t)
T ( 1 ) ⊆ T ( 2 ) ⊆ ⋅ ⋅ ⋅ ⊆ T ( n ) T^{(1)} \subseteq T^{(2)} \subseteq ···\subseteq T^{(n)} T(1)⊆T(2)⊆⋅⋅⋅⊆T(n);
T ( n ) = T = { ( x i , y i ) ∣ x i ∈ X , y i ∈ R } T^{(n)}=T=\{(x_i,y_i)|x_i\in X,y_i\in R\} T(n)=T={(xi,yi)∣xi∈X,yi∈R};
∣ T ( n ) ∣ ≤ ζ |T^{(n)}|\leq \zeta ∣T(n)∣≤ζ:标注预算。 - 函数: f ( t ) f^{(t)} f(t);
- 预测(第
t
t
t次迭代第
i
i
i个样本预测值):
y
^
i
t
=
∑
k
=
1
t
f
(
k
)
(
x
i
)
\hat y_{i}^t=\sum\limits_{k=1}^{t}f^{(k)}(x_i)
y^it=k=1∑tf(k)(xi) ;
为 什 么 是 求 和 , 而 不 是 加 权 求 和 ? \color{red}{为什么是求和,而不是加权求和?} 为什么是求和,而不是加权求和? - 损失函数:
∑ ( x i , y i ) ∈ T ( t ) l 1 ( y ^ i t , y i ) + Ω 1 ( f ( t ) ) \sum\limits_{(x_i,y_i)\in T^{(t)}}l_1(\hat y_i^t,y_i)+\Omega_1(f^{(t)}) (xi,yi)∈T(t)∑l1(y^it,yi)+Ω1(f(t))
l 1 l_1 l1:微分损失函数;
Ω 1 \Omega_1 Ω1:惩罚项。 - Softmax层
输入: 1 ( t ) = < l ( y ^ 1 , y 1 ) , l ( y ^ 2 , y 2 ) , . . . , l ( y ^ q , y q ) > 1^{(t)}=<l(\hat y_1, y_1), l(\hat y_2, y_2), ..., l(\hat y_q, y_q)> 1(t)=<l(y^1,y1),l(y^2,y2),...,l(y^q,yq)>,其中 q = ∣ T ( t ) ∣ q=|T^{(t)}| q=∣T(t)∣
输出: z i ( t ) = S o f t m a x ( l i ( t ) ) z_i^{(t)}=Softmax(l_i^{(t)}) zi(t)=Softmax(li(t)),
其中 S o f t m a x ( l i ( t ) ) = e l i ( t ) / ∑ j = 1 q e l j ( t ) Softmax(l_i^{(t)})=e^{l_i^{(t)}}/\sum\limits_{j=1}^qe^{l_j^{(t)}} Softmax(li(t))=eli(t)/j=1∑qelj(t), l i ( t ) = l ( y ^ i , y i ) l_i^{(t)}=l(\hat y_i, y_i) li(t)=l(y^i,yi)。
为 什 么 要 s o f t m a x ? A : 猜 想 是 为 了 方 便 求 导 运 算 。 \color{red}{为什么要softmax?A:猜想是为了方便求导运算。} 为什么要softmax?A:猜想是为了方便求导运算。
2. Sampling Model
(1)采样目标
- 易被 boosting model 错分的样本;
- 样本空间中具有多样性特征的样本;
(2)目标函数(最大化)
m
a
x
i
m
i
z
e
∑
i
=
1
k
v
i
g
(
t
)
(
x
i
)
+
α
×
Γ
(
v
)
maximize \sum\limits_{i=1}^kv_ig^{(t)}(x_i)+\alpha \times\Gamma({\rm v})
maximizei=1∑kvig(t)(xi)+α×Γ(v)
subject to
∣
∣
v
∣
∣
1
=
∣
Δ
(
t
)
∣
||{\rm v}||_1=|\Delta^{(t)}|
∣∣v∣∣1=∣Δ(t)∣
Δ
(
t
)
是
什
么
?
\color{red}{\Delta^{(t)}是什么?}
Δ(t)是什么?
其中,
- k = ∣ X U ( t ) ∣ k=|X_U^{(t)}| k=∣XU(t)∣:第t轮迭代无标记样本池个数;
-
v
=
(
v
1
,
v
2
,
.
.
.
,
v
k
)
T
∈
{
0
,
1
}
k
{\rm v}=(v_1,v_2, ... , v_k)^T\in\{0,1\}^k
v=(v1,v2,...,vk)T∈{0,1}k:boosting model
的
输
出
值
?
A
:
应
该
不
是
,
而
是
控
制
训
练
样
本
分
布
的
参
数
,
选
中
则
标
记
为
1
,
用
最
后
的
惩
罚
项
来
控
制
分
布
。
\color{red}{的输出值?A:应该不是,而是控制训练样本分布的参数,选中则标记为1,用最后的惩罚项来控制分布。}
的输出值?A:应该不是,而是控制训练样本分布的参数,选中则标记为1,用最后的惩罚项来控制分布。
v i = { 1 , x i 被选中 0 , x i 未 被 选 中 v_i= \begin{cases} 1, & \text {$x_i$被选中} \\ 0, & \text{$x_i未被选中$} \end{cases} vi={1,0,xi被选中xi未被选中 - 回归器 g ( t ) ( x i ) g^{(t)}(x_i) g(t)(xi):用例 x i x_i xi的不确定分数(uncertainty score);
- 正则化项 Γ ( v ) \Gamma({\rm v}) Γ(v) :控制已选样本的分布,确保其在样本空间的多样性;
-
α
\alpha
α:平衡样本不确定度和多样性的影响;
{ 样 本 多 样 性 影 响 更 大 , α >1 样 本 不 确 定 度 影 响 更 大 , α < 1 \begin{cases} 样本多样性影响更大, & \text {$\alpha$>1} \\ 样本不确定度影响更大, & \text {$\alpha$ < 1} \end{cases} {样本多样性影响更大,样本不确定度影响更大,α>1α < 1
四. 采样策略(Sample Strategies)
- 不同采样策略的对比
1. 不确定性采样(Uncertainty Sample)
(1)不确定性衡量标准:boosting model的表现性能(train loss)。
(2) 第
t
t
t轮迭代,训练
g
(
t
)
g^{(t)}
g(t)的损失函数
∑
(
x
i
,
z
i
(
t
)
)
∈
A
(
t
)
w
i
(
t
)
l
2
(
g
(
t
)
(
x
i
,
z
i
(
t
)
)
)
+
Ω
2
(
g
(
t
)
)
\sum\limits_{(x_i,z_i^{(t)})\in A^{(t)}}w_i^{(t)}l_2(g^{(t)}(x_i,z_i^{(t)}))+\Omega_2(g^{(t)})
(xi,zi(t))∈A(t)∑wi(t)l2(g(t)(xi,zi(t)))+Ω2(g(t))
其中:
- z ( t ) = < z 1 ( t ) , . . . , z q ( t ) > z^{(t)}=<z_1^{(t)},...,z_q^{(t)}> z(t)=<z1(t),...,zq(t)>:第 t t t轮迭代 boost model F 的 softmax 层输出, q = ∣ T ( t ) ∣ q=|T^{(t)}| q=∣T(t)∣。
-
A
(
t
)
=
{
(
x
i
,
z
i
(
t
)
)
∣
(
x
i
,
y
i
)
∈
T
(
t
)
,
z
i
(
t
)
∈
[
0
,
1
]
}
A^{(t)}=\{(x_i,z_i^{(t)})|(x_i,y_i)\in T^{(t)},z_i^{(t)}\in [0,1]\}
A(t)={(xi,zi(t))∣(xi,yi)∈T(t),zi(t)∈[0,1]};
g ( t ) 拟 合 的 什 么 ? A : 感 觉 是 输 入 x i , 输 出 z i ( t ) 。 \color{red}{g^{(t)}拟合的什么?A:感觉是输入x_i,输出z_i^{(t)}}。 g(t)拟合的什么?A:感觉是输入xi,输出zi(t)。 - w i ( t ) w_i^{(t)} wi(t): x i x_i xi的权重,迭代过程中 动 态 调 整 \color{red}{动态调整} 动态调整;
- l 2 l_2 l2:微分损失函数;
- Ω 2 ( g ( t ) ) \Omega_2(g^{(t)}) Ω2(g(t)): g ( t ) g^{(t)} g(t)复杂度的惩罚项。
2. 多样性采样(Diversity Sample)
(1)划分样本空间,同一group的样本更相似。
(2)假设,
X
(
t
)
X^{(t)}
X(t)中的无标记样本被划分为
{
X
1
(
t
)
,
.
.
.
,
X
b
(
t
)
}
\{X_1^{(t)}, ..., X_b^{(t)}\}
{X1(t),...,Xb(t)}
Γ
(
v
)
=
∣
∣
v
∣
∣
2
,
1
(
l
2
,
1
范
函
数
)
=
∑
j
=
1
b
∣
∣
v
j
∣
∣
2
\Gamma({\rm v})=||{\rm v}||_{2,1}(l_{2,1}范函数)=\sum\limits_{j=1}^b||{\rm v}_j||_2
Γ(v)=∣∣v∣∣2,1(l2,1范函数)=j=1∑b∣∣vj∣∣2
其中:
-
v
{\rm v}
v被划分为
{
v
j
}
j
=
1
b
,
v
j
∈
{
0
,
1
}
m
,
m
=
∣
X
j
(
t
)
∣
{\{{\rm v}_j\}_{j=1}^b, {\rm v}_j\in {\{0,1\}^m}, m=|X_j^{(t)}|}
{vj}j=1b,vj∈{0,1}m,m=∣Xj(t)∣;
不 懂 v 的 含 义 \color{red}{不懂v的含义} 不懂v的含义
五. 算法描述(Algorithm Description)
1. 动态调整权重(How to decide dynamic weighted values for samples?)
(1)初始化(Intialization)
不
知
道
怎
么
利
用
的
这
个
初
始
化
权
重
。
\color{red}{不知道怎么利用的这个初始化权重。}
不知道怎么利用的这个初始化权重。
第
t
t
t轮迭代的每个新样本
x
i
x_i
xi,即
∀
x
i
∈
Δ
(
t
−
1
)
\forall x_i \in \Delta^{(t-1)}
∀xi∈Δ(t−1):
w
i
(
t
−
1
)
=
1
∣
Δ
(
t
−
1
)
∣
w_i^{(t-1)}=\frac{1}{|\Delta^{(t-1)}|}
wi(t−1)=∣Δ(t−1)∣1
(2)调整(Adjustment)
没
懂
如
何
调
整
的
。
\color{red}{没懂如何调整的。}
没懂如何调整的。
A
(
t
)
A^{(t)}
A(t)中每个样本
x
i
x_i
xi的权重被重新计算:
w
i
(
t
)
=
w
i
(
t
−
1
)
×
e
−
1
2
l
n
(
1
−
ϵ
(
t
−
1
)
ϵ
(
t
−
1
)
)
g
(
t
−
1
)
(
x
i
)
z
i
(
t
−
1
)
Z
t
w_i^{(t)}=w_i^{(t-1)} \times \frac{e^{-\frac{1}{2}ln(\frac{1-\epsilon^{(t-1)}}{\epsilon^{(t-1)}})g^{(t-1)}(x_i)z_i^{(t-1)}}}{Z_t}
wi(t)=wi(t−1)×Zte−21ln(ϵ(t−1)1−ϵ(t−1))g(t−1)(xi)zi(t−1)
其中:
- ϵ ( t − 1 ) = ∑ i z i ( t − 1 ) ∣ T ( t − 1 ) ∣ \epsilon^{(t-1)}=\frac{\sum_iz_i^{(t-1)}}{|T^{(t-1)}|} ϵ(t−1)=∣T(t−1)∣∑izi(t−1)
- Z t Z_t Zt:正则化因子,确保 A ( t ) A^{(t)} A(t)中所有样本的权重值和为1。
2. 划分样本空间(How to partition a sample space into groups?)
给定:
d
d
d:样本空间特征维数;
ζ
\zeta
ζ:标签预算;
n
n
n:迭代次数;
⇒
k
=
⌈
ζ
n
d
⌉
d
\Rightarrow k=\lceil \sqrt[d]{\frac{\zeta}{n}}\rceil^d
⇒k=⌈dnζ⌉d:groups数量。
3. 根据迭代次数分配标签预算(How to distribute label budget across iterations?)
每次迭代标签预算相等, ∣ Δ ( t ) ∣ = ζ / n , t ∈ [ 1 , n ] |\Delta^{(t)}|=\zeta/n, t\in [1,n] ∣Δ(t)∣=ζ/n,t∈[1,n]。
4. 讨论(Discuss)
(1)冷启动问题(cold start problem)
AL早期迭代时有标记样本少,代表性差。
(2)本文解决办法
- 基于特征相似度 划分样本空间为 多个groups;
- 正则化项 Γ ( v ) \Gamma(v) Γ(v)。
六. 实验(Experiments)
1. 实验设置(Experimental Setup)
- 三个不同的分类任务
图片分类(image classification),工资级别预测(salary level prediction),实体解析(entity resolution)。
(1)数据集(Dataset)
(2)Baseline methods - CART;
- XG;
- XG+RS;
- XG+US;
- XG+DS;
- XG+LTS(E);
(3)衡量(Measures)
- accuracy:Mnist和Adult;
- precision,recall和f-measure:entity resolution。
F M = 2 ∗ R e c a l l ∗ P r e c i s i o n R e c a l l + P r e c i s i o n FM=\frac{2*Recall*Precision}{Recall+Precision} FM=Recall+Precision2∗Recall∗Precision
(4)标签预算(Label budgets)
取
∣
X
∣
|X|
∣X∣的百分比。
2. 结果与讨论(Results and Discussion)
(1)不同标签预算下的表现
(2)冷启动问题和类别不平衡问题
标签预算小时,选择大的
α
\alpha
α能解决冷启动问题。
…
七. 相关工作
1. Active Learning
2. Learning based Active Learning
3. Boosting Techniques
- 许多 boosting 技术用一些弱学习者(如:决策树,SVM)去构建一个强学习者;
- 发展历程
名称 | 特点 | 第一次被提出 | 其他 |
---|---|---|---|
第一个boosting algorithm | Yoav Freund. Boosting a weak learning algorithm by majority. Information and computation, 1995. | ||
第一个自适应boosting方法(AdaBoost) | 每次迭代过程中,基于真实表现,模型的参数(包括采样权重和附加学习者的权重)能够自适应。 | Yoav Freund, Robert E Schapire, et al. Experiments with a new boosting algorithm. In Proceedings of the International Conference on Machine Learning (ICML). | |
Gradient Boosting | 通过梯度下降法降低模型损失来解决分类回归问题。 | Jerome Friedman, Trevor Hastie, Robert Tibshirani, et al. Additive logistic regression: a statistical view of boosting. The annals of statistics, 2000. | 最流行的Gradient Boosting方法:XGBoost。Tianqi Chen and Carlos Guestrin. Xgboost: a scalable tree boosting system. In Proceedings of the 22nd international conference on Knowledge Discovery and Data mining (SIGKDD), 2016. |