[7]2019-ICDM-Learning to Sample:an Active Learning Framework 论文笔记

最新推荐文章于 2021-10-20 14:29:17 发布

梁小娘子

最新推荐文章于 2021-10-20 14:29:17 发布

阅读量308

点赞数 1

分类专栏： Active Learning 论文

本文链接：https://blog.csdn.net/weixin_40680322/article/details/108677152

版权

Active Learning 论文专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在这里插入图片描述 $2019 - I C D M$
本文主要在AL中结合了boost learning（Adaboost），利用了以往模型的输出值（只是不太懂为什么最后的模型结合是所有输出值直接求和，而不加权求和）；sample model(回归器)将样本x作为输入，boost model的损失作为输出，去拟合不确定性，同时考虑了多样性，从而去挑选最有代表性的样本。sample model的思想应该是建立在boost learning的meta learner基础上的，从x->y延伸到x->做了处理的loss。
这篇文章与Learning Loss for Active Learning的区别主要在两点：

target model不同：Learning Loss for Active Learning用的是普通的神经网络，LTS用的boost learning；
loss prediction model输入不同：Learning Loss for Active Learning是target model隐藏层输出级联->loss,LTS则是x->loss.
当然还有其他具体的差别，比如loss的设计等等，目前不主要考虑。

一. 摘要（Abstract）

1. 动机（Motivation）

在AL中使用Meta-learning是学习最好的AL策略的潮流，然而需要大量的训练数据（与AL的本意相违背），如果数据量小了将导致表现性能差（如：不稳定性和过拟合）。

2. 贡献（Contribution）

提出LTS（Learning To Sample）框架（sampling model $G$ +boosting model $F$ ：迭代中互相优化）。
该框架在优化过程中，sampling model将uncertainty采样和diversity采样并为一个过程。
实验结果表明，在预算有限或者数据不平衡的情况下，该方法表现突出。此外，LTS还能解决AL中的冷启动问题。

二. 引言（Introduction）

1. 以往的采样策略

uncertainty sample;
query-by-committee;
error or variance minimization;
expected model change.

2. 提出LTS前的观察（Observations）

uncertainty sample：虽然流行，但是它趋于选择具有相似特征的样本；
diversity sample：选择不同类别的样本（与uncertainty sample互补）；
meta-learning：能找到最好的整合（上述两种采样策略）方法。

3. 注意(LTS不受限于具体的分类/回归ML模型)

boosting model $F$ 能替换为任意的分类模型；
sampling model $G$ 中的回归器能被替换为任意的回归模型。

三. LTS框架

整体框架（绿色：Boosting Model；蓝色：Sampling Model）

1. Boosting Model

第 $t$ 次迭代

训练集： $T^{(t)}$
$T^{(1)} \subseteq T^{(2)} \subseteq ···\subseteq T^{(n)}$ ；
$T^{(n)}=T=\{(x_i,y_i)|x_i\in X,y_i\in R\}$ ；
$|T^{(n)}|\leq \zeta$ ：标注预算。
函数： $f^{(t)}$ ；
预测（第 $t$ 次迭代第 $i$ 个样本预测值）： $\hat y_{i}^t=\sum\limits_{k=1}^{t}f^{(k)}(x_i)$ ；
$\color{red}{为什么是求和，而不是加权求和？}$
损失函数：
$\sum\limits_{(x_i,y_i)\in T^{(t)}}l_1(\hat y_i^t,y_i)+\Omega_1(f^{(t)})$
$l_1$ ：微分损失函数；
$\Omega_1$ ：惩罚项。
Softmax层
输入： $1^{(t)}=<l(\hat y_1, y_1), l(\hat y_2, y_2), ..., l(\hat y_q, y_q)>$ ，其中 $q=|T^{(t)}|$
输出： $z_i^{(t)}=Softmax(l_i^{(t)})$ ，
其中 $Softmax(l_i^{(t)})=e^{l_i^{(t)}}/\sum\limits_{j=1}^qe^{l_j^{(t)}}$ , $l_i^{(t)}=l(\hat y_i, y_i)$ 。
$\color{red}{为什么要softmax?A:猜想是为了方便求导运算。}$

2. Sampling Model

（1）采样目标

易被 boosting model 错分的样本；
样本空间中具有多样性特征的样本；

（2）目标函数（最大化）
$\sum\limits_{i=1}^kv_ig^{(t)}(x_i)+\alpha \times\Gamma({\rm v})$
subject to $||{\rm v}||_1=|\Delta^{(t)}|$
$\color{red}{\Delta^{(t)}是什么？}$
其中，

$k=|X_U^{(t)}|$ ：第t轮迭代无标记样本池个数；
${\rm v}=(v_1,v_2, ... , v_k)^T\in\{0,1\}^k$ ：boosting model $\color{red}{的输出值？A:应该不是，而是控制训练样本分布的参数，选中则标记为1，用最后的惩罚项来控制分布。}$
$v_i= \begin{cases} 1, & \text {$x_i$被选中} \\ 0, & \text{$x_i未被选中$} \end{cases}$
回归器 $g^{(t)}(x_i)$ ：用例 $x_i$ 的不确定分数（uncertainty score）；
正则化项 $\Gamma({\rm v})$ ：控制已选样本的分布，确保其在样本空间的多样性；
$\alpha$ ：平衡样本不确定度和多样性的影响；
$\begin{cases} 样本多样性影响更大, & \text {$\alpha$>1} \\ 样本不确定度影响更大, & \text {$\alpha$ < 1} \end{cases}$

四. 采样策略（Sample Strategies）

不同采样策略的对比

1. 不确定性采样（Uncertainty Sample）

（1）不确定性衡量标准：boosting model的表现性能（train loss）。
（2）第 $t$ 轮迭代，训练 $g^{(t)}$ 的损失函数
$\sum\limits_{(x_i,z_i^{(t)})\in A^{(t)}}w_i^{(t)}l_2(g^{(t)}(x_i,z_i^{(t)}))+\Omega_2(g^{(t)})$
其中：

$z^{(t)}=<z_1^{(t)},...,z_q^{(t)}>$ ：第 $t$ 轮迭代 boost model F 的 softmax 层输出， $q=|T^{(t)}|$ 。
$A^{(t)}=\{(x_i,z_i^{(t)})|(x_i,y_i)\in T^{(t)},z_i^{(t)}\in [0,1]\}$ ；
$\color{red}{g^{(t)}拟合的什么？A：感觉是输入x_i，输出z_i^{(t)}}。$
$w_i^{(t)}$ ： $x_i$ 的权重，迭代过程中 $\color{red}{动态调整}$ ；
$l_2$ ：微分损失函数；
$\Omega_2(g^{(t)})$ : $g^{(t)}$ 复杂度的惩罚项。

2. 多样性采样（Diversity Sample）

（1）划分样本空间，同一group的样本更相似。
（2）假设， $X^{(t)}$ 中的无标记样本被划分为 ${X_1^{(t)}, ..., X_b^{(t)}\}$
$\Gamma({\rm v})=||{\rm v}||_{2,1}(l_{2,1}范函数)=\sum\limits_{j=1}^b||{\rm v}_j||_2$
其中：

${\rm v}$ 被划分为 ${\{{\rm v}_j\}_{j=1}^b, {\rm v}_j\in {\{0,1\}^m}, m=|X_j^{(t)}|}$ ;
$\color{red}{不懂v的含义}$

五. 算法描述（Algorithm Description）

在这里插入图片描述

1. 动态调整权重（How to decide dynamic weighted values for samples?）

（1）初始化（Intialization） $\color{red}{不知道怎么利用的这个初始化权重。}$
第 $t$ 轮迭代的每个新样本 $x_i$ ，即 $\forall x_i \in \Delta^{(t-1)}$ :
$w_i^{(t-1)}=\frac{1}{|\Delta^{(t-1)}|}$
（2）调整（Adjustment） $\color{red}{没懂如何调整的。}$
$A^{(t)}$ 中每个样本 $x_i$ 的权重被重新计算：
$w_i^{(t)}=w_i^{(t-1)} \times \frac{e^{-\frac{1}{2}ln(\frac{1-\epsilon^{(t-1)}}{\epsilon^{(t-1)}})g^{(t-1)}(x_i)z_i^{(t-1)}}}{Z_t}$
其中：

$\epsilon^{(t-1)}=\frac{\sum_iz_i^{(t-1)}}{|T^{(t-1)}|}$
$Z_t$ ：正则化因子，确保 $A^{(t)}$ 中所有样本的权重值和为1。

2. 划分样本空间（How to partition a sample space into groups?）

给定：
$d$ ：样本空间特征维数；
$\zeta$ ：标签预算；
$n$ ：迭代次数；
$\Rightarrow k=\lceil \sqrt[d]{\frac{\zeta}{n}}\rceil^d$ ：groups数量。

3. 根据迭代次数分配标签预算（How to distribute label budget across iterations?）

每次迭代标签预算相等， $|\Delta^{(t)}|=\zeta/n, t\in [1,n]$ 。

4. 讨论（Discuss）

（1）冷启动问题（cold start problem）
AL早期迭代时有标记样本少，代表性差。
（2）本文解决办法

基于特征相似度划分样本空间为多个groups；
正则化项 $\Gamma(v)$ 。

六. 实验（Experiments）

1. 实验设置（Experimental Setup）

三个不同的分类任务
图片分类（image classification），工资级别预测（salary level prediction），实体解析（entity resolution）。
（1）数据集（Dataset）

（2）Baseline methods
CART;
XG;
XG+RS;
XG+US;
XG+DS;
XG+LTS(E);

（3）衡量（Measures）

accuracy：Mnist和Adult；
precision，recall和f-measure：entity resolution。
$FM=\frac{2*Recall*Precision}{Recall+Precision}$

（4）标签预算（Label budgets）
取 $∣ X ∣$ 的百分比。

2. 结果与讨论（Results and Discussion）

（1）不同标签预算下的表现
在这里插入图片描述

（2）冷启动问题和类别不平衡问题
标签预算小时，选择大的 $\alpha$ 能解决冷启动问题。
…

七. 相关工作

1. Active Learning

2. Learning based Active Learning

3. Boosting Techniques

许多 boosting 技术用一些弱学习者（如：决策树，SVM）去构建一个强学习者；
发展历程

名称	特点	第一次被提出	其他
第一个boosting algorithm		Yoav Freund. Boosting a weak learning algorithm by majority. Information and computation, 1995.
第一个自适应boosting方法（AdaBoost）	每次迭代过程中，基于真实表现，模型的参数（包括采样权重和附加学习者的权重）能够自适应。	Yoav Freund, Robert E Schapire, et al. Experiments with a new boosting algorithm. In Proceedings of the International Conference on Machine Learning (ICML).
Gradient Boosting	通过梯度下降法降低模型损失来解决分类回归问题。	Jerome Friedman, Trevor Hastie, Robert Tibshirani, et al. Additive logistic regression: a statistical view of boosting. The annals of statistics, 2000.	最流行的Gradient Boosting方法：XGBoost。Tianqi Chen and Carlos Guestrin. Xgboost: a scalable tree boosting system. In Proceedings of the 22nd international conference on Knowledge Discovery and Data mining (SIGKDD), 2016.

梁小娘子

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[7]2019-ICDM-Learning to Sample:an Active Learning Framework 论文笔记

2019−ICDM2019-ICDM2019−ICDM一. 摘要（Abstract）1. 动机（Motivation）在AL中使用Meta-learning是学习最好的AL策略的潮流，然而需要大量的训练数据（与AL的本意相违背），如果数据量小了将导致表现性能差（如：不稳定性和过拟合）。2. 贡献（Contribution）提出LTS（Learning To Sample）框架（sampling model GGG+boosting model FFF：迭代中互相优化）。该框架在优化过程中.
复制链接

扫一扫

专栏目录