2020
−
C
V
P
R
2020-CVPR
2020−CVPR
一.摘要(Abstract)
1. 动机(Motivation)
设计一个有效的标记算法,sample oracle需要标记的最有信息的样本。
问
题
:
设
计
采
样
算
法
,
使
o
r
a
c
l
e
需
要
标
记
的
样
本
信
息
量
最
大
?
\color{red}{问题:设计采样算法,使oracle需要标记的样本信息量最大?}
问题:设计采样算法,使oracle需要标记的样本信息量最大?
2. 主要贡献(Contribution)
- 提出SRAAL模型,利用标注信息和已标记/无标记的状态信息来获取最有信息的无标记样本;
- 设计初始化labeled pool的算法(k-center),该算法使后续的采样更有效。
思
路
:
1.
更
改
初
始
化
有
标
记
样
本
池
的
方
法
;
2.
更
改
采
样
策
略
(
利
用
标
注
信
息
和
状
态
信
息
)
。
\color{red}{思路:1. 更改初始化有标记样本池的方法;2.更改采样策略(利用标注信息和状态信息)。}
思路:1.更改初始化有标记样本池的方法;2.更改采样策略(利用标注信息和状态信息)。
思
考
(
A
L
可
提
高
采
样
性
能
的
途
径
)
:
上
述
1
和
2
。
\color{blue}{思考(AL可提高采样性能的途径):上述1和2。 }
思考(AL可提高采样性能的途径):上述1和2。
3. SRAAL结构:
- 表示生成器(representation generator)
利用与传统重构信息互补的注释信息生成统一的样本表示,将语义嵌入到整个数据表示中。
步骤:
a. 基于VAE结构建立一个无监督图像重构器以学习rich representation;
b. 设计一个有监督目标学习器,预测有标记样本的注释信息(这些注释信息嵌于representation中);
c. 级联上面的representations。 - 状态判别器(state discriminator)
设计了一个在线不确定性指标,该指标赋予无标记样本以不同的重要性。
(结果:根据判别器预测的状态,选择最有信息的样本)
步骤:
a. 在线不确定性指标(indicator)为每个无标记样本计算不确定性分数以作为它的新的state label;
b. 判别器根据重标记的状态选择更有指导性的样本。
二.引言(Introduce)
1. 降低有标记数据的需求的方法
无监督学习,半监督学习,弱监督学习,主动学习。
2. AL的最近发展
- 主要问题:
如何从unlabeled pool中选择最优信息的样本。 - 前人工作:
a. 充分利用有标记数据的标注信息(比如:Learning Loss for Active Learnign);
b. 将样本的状态信息(1:labeled;0:unlabeled)视为一种对抗标记。
三.相关工作(Related Work)
1. 当前AL方法
- 基于pool的方法;
分为基于分布的方法和基于不确定性的方法; - 合成方法。
四.方法(Method)
1. 概况(Overview)
2. 统一表示生成器(Unified representation generator)
统一表示生成器=UIR+STL(两种表示的级联);
(1)无监督图像重构器(unsupervised image reconstructor, UIR)——VAE
- 输入(训练):有/无标记样本经过(CNN+FC)得到的隐藏变量;
- 输出:基于高斯先验重构的样本;
- 损失函数:
L U I R = L U U I R + L L U I R \mathcal{L}^{UIR}=\mathcal{L}_U^{UIR}+\mathcal{L}_L^{UIR} LUIR=LUUIR+LLUIR
L U U I R = E [ l o g [ p ϕ ( x U ∣ z U ) ] − D K L ( q θ ( z U ∣ x U ) ∣ ∣ p ( z ) ) ] \mathcal{L}_U^{UIR}=E[log[p_{\phi}(x_U|z_U)]-D_{KL}(q_\theta(z_U|x_U)||p(z))] LUUIR=E[log[pϕ(xU∣zU)]−DKL(qθ(zU∣xU)∣∣p(z))]
L L U I R = E [ l o g [ p ϕ ( x L ∣ z L ) ] − D K L ( q θ ( z L ∣ x L ) ∣ ∣ p ( z ) ) ] \mathcal{L}_L^{UIR}=E[log[p_{\phi}(x_L|z_L)]-D_{KL}(q_\theta(z_L|x_L)||p(z))] LLUIR=E[log[pϕ(xL∣zL)]−DKL(qθ(zL∣xL)∣∣p(z))]
其中:
L U U I R \mathcal{L}_U^{UIR} LUUIR:无标记样本的目标函数;
L L U I R \mathcal{L}_L^{UIR} LLUIR:有标记样本的目标函数;
z z z:隐藏变量;
ϕ \phi ϕ:编码器 p ϕ p_\phi pϕ的参数;
θ \theta θ:解码器 q θ q_\theta qθ的参数;
(2)有监督目标学习器(supervised target learner, STL)——VAE
- 输入(训练):有标记样本经过(CNN+FC)得到的隐藏变量;
- 输出:预测的注释(类别);
- 损失:
L L S T L = E [ l o g [ p ϕ ( y L ∣ z L ) ] − D K L ( q θ ( z L ∣ x L ) ∣ ∣ p ( z ) ) ] \mathcal{L}_L^{STL}=E[log[p_\phi (y_L|z_L)]-D_{KL}(q_\theta(z_L|x_L)||p(z))] LLSTL=E[log[pϕ(yL∣zL)]−DKL(qθ(zL∣xL)∣∣p(z))]
其中:
z L z_L zL:有标记样本的隐藏变量;
ϕ \phi ϕ:编码器 p ϕ p_\phi pϕ的参数;
θ \theta θ:解码器 q θ q_\theta qθ的参数; - 其他:解码器因任务的不同而不同(图像分类->分类器;语义分割->分割模型)。
3. 状态判断器和状态重标记(State discriminator and state relabeling)
(1)在线不确定度指标(OUI, online uncertainty indicator)
- 作用
基于target model的预测vector计算不确定度score; - 公式
I n d i c a t o r ( x U ) = 1 − M I N V a r ( V ) V a r ( V ) × m a x ( V ) Indicator(x_U)=1-\frac{MINVar(V)}{Var(V)}\times max(V) Indicator(xU)=1−Var(V)MINVar(V)×max(V)
其中:
a) x U x_U xU:无标记样本;
b) V = p ( x U ∣ D L ) V=p(x_U|D_L) V=p(xU∣DL):当前有标记样本pool( D L D_L DL)训练的目标模型对 x U x_U xU预测的probability vector;
c) M I N V a r ( V ) = V a r ( V ′ ) = 1 C ( ( 1 C − m a x ( V ) ) 2 + ( C − 1 ) ( 1 C − 1 − m a x ( V ) 1 − C ) 2 ) MINVar(V)=Var(V^{'})=\frac{1}{C}((\frac{1}{C}-max(V))^2+(C-1)(\frac{1}{C}-\frac{1-max(V)}{1-C})^2) MINVar(V)=Var(V′)=C1((C1−max(V))2+(C−1)(C1−1−C1−max(V))2)
C C C:类别数目;
M I N V a r ( V ) MINVar(V) MINVar(V)是向量 V ′ V^{'} V′的方差, V ′ V^{'} V′的最大元素与 V V V相同, V ′ V^{'} V′的其他元素都等于 1 − m a x ( V ) C − 1 \frac{1-max(V)}{C-1} C−11−max(V)。
M I N V a r ( V ) MINVar(V) MINVar(V)是(最大值与 V V V的最大值相同的)向量间的最小方差。
不 太 懂 . . . . . . \color{red}{不太懂......} 不太懂...... - 性质
a) ∈ [ 0 , 1 ) \in [0,1) ∈[0,1);
b)与最大概率值负相关;
c)与概率分布的集中度正相关。
(2)判别器的目标函数
L D = − E [ l o g ( D ( q θ ( z L ∣ x L ) ) ) ] − E [ l o g ( I n d i c a t o r ( x U ) − D ( q θ ( z U ∣ x U ) ) ) ] \mathcal{L}^D=-E[log(D(q_\theta (z_L|x_L)))]-E[log(Indicator(x_U)-D(q_\theta(z_U|x_U)))] LD=−E[log(D(qθ(zL∣xL)))]−E[log(Indicator(xU)−D(qθ(zU∣xU)))]
(3)统一表示生成器的目标函数
L a d v G = − E [ l o g ( D ( q θ ( z L ∣ x L ) ) ) ] − E [ l o g ( D ( q θ ( z U ∣ x U ) ) ) ] L_{adv}^G=-E[log(D(q_\theta(z_L|x_L)))]-E[log(D(q_\theta(z_U|x_U)))] LadvG=−E[log(D(qθ(zL∣xL)))]−E[log(D(qθ(zU∣xU)))]
(4)隐藏变量生成器的综合目标函数
L G = λ 1 L U I R + λ 2 L L S T L + λ 3 L a d v G \mathcal{L}^G=\lambda_1\mathcal{L}^{UIR}+\lambda_2\mathcal{L}_L^{STL}+\lambda_3\mathcal{L}_{adv}^G LG=λ1LUIR+λ2LLSTL+λ3LadvG
不 理 解 上 述 几 个 公 式 ! ! ! \color{red}{不理解上述几个公式!!!} 不理解上述几个公式!!!
3. 主动学习中的采样策略(Sampling strategy in active learning)
- 采样阶段
生成器:对每个无标记样本生成统一表示;
判别器:预测状态值;
然后选择top-K的样本给oracle标注。
4. 初始化采样算法(Initially sampling algorithm)
(1)目标
找到数据点的子集,其中任一点到子集的最大距离最小。
(2)步骤
- 训练无监督图像生成器
学习所有样本的隐藏变量; - 贪婪k-center算法
选择与子集最大距离最小的点;
其中,两样本距离=隐藏变量的欧式距离(Euclidean distance) - 输出
M \mathcal{M} M个oracle标注的样本构成的子集,并送往labeled pool。
四. 实验(Experiment)
-
∣
D
L
0
∣
=
10
%
|D_L^0|=10\%
∣DL0∣=10%整个数据集大小
D L 0 D_L^0 DL0:初始化labeled pool ;
M M M: 10 % 10\% 10%。
D U 0 D_U^0 DU0:剩下 90 % 90\% 90%的样本构成initial unlabeled pool。 - 每轮迭代选择 K = 5 % K=5\% K=5%的样本,直到labeled samples达到 40 % 40\% 40%。
- 重复5次实验,每次实验有不同的initial labeled pool,最终展示mean performance。
1. 图像分类中的主动学习(Active learning for image classification)
- 数据集(Dataset)
数据集 | 样本总数 | 训练集 | 测试集 | 图片大小 | 其他 |
---|---|---|---|---|---|
CIFAR-10 | 60000 | 50000 | 10000 | 32 × 32 × 3 32\times32\times3 32×32×3 | 10个类别,每类6000个样本 |
CIFAR-100 | 60000 | 50000 | 10000 | 32 × 32 × 3 32\times32\times3 32×32×3 | 100个类别,每类600个样本 |
Caltech-101 | 9146 | 101个类别,每类40-800个样本 |
- 对比方法(Compared methods)
Core-set[37];
Monte-Carlo Droupout[14];
VAAL[39];
LL4AL。 - 性能评估
5次重复实验的平均accuracy。
注:
每个实验,所有方法都从同一个初始化labeled pool开始;
target model:ResNet-18;
2. 语义分割中的主动学习(Active learning for semantic segmentation)
- 数据集(Dataset)
数据集 | 帧数 | 类别 |
---|---|---|
Cityscape | 3475 | 19 |
- 对比方法(Compared methods)
Core-set[37];
Monte-Carlo Droupout[14];
Query-By-Committee (QBC) [25];
suggestive annotation (SA) [42]
VAAL[39]。 - 性能评估
重复实验的平均IoU
注意:
每个实验,所有方法都从同一个初始化labeled pool开始,且每次迭代都有同样的selection budget ;
target model:DRN;
3. 初始化算法对比(Initialization algorithm comparison)
4. 消融研究(Ablation study)
5. 不同不确定性评估的对比(Comparison on different uncertainty estimators)
s
c
o
r
e
越
大
越
好
吗
?
\color{red}{score越大越好吗?}
score越大越好吗?