[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data

最新推荐文章于 2024-07-09 16:15:46 发布

bridgeqiqi

最新推荐文章于 2024-07-09 16:15:46 发布

阅读量338

点赞数

分类专栏：学习笔记论文笔记 Machine Learning 文章标签：机器学习人工智能深度学习计算机视觉 python

本文链接：https://blog.csdn.net/bridgeqiqi/article/details/109017420

版权

学习笔记同时被 3 个专栏收录

4 篇文章 0 订阅

订阅专栏

论文笔记

3 篇文章 0 订阅

订阅专栏

Machine Learning

3 篇文章 0 订阅

订阅专栏

[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data

论文地址：https://arxiv.org/pdf/2007.03195.pdf

摘要 Abstract

最近的人群计数的方法取得了很好的性能，但是大多数的方法都是基于全监督式的学习同时需要依赖大量的标注。获取这些标注是非常耗时费力的，成本较高。因此本文提出一种从有限的标注样本中学习计数的网络（同时利用了大量的无标注的数据），旨在减少标注成本。使用基于高斯过程的迭代学习机制用于对无标注样本的伪标签进行评估，然后将其作为监督信息使用监督式的方法来训练网络。

首先用高斯过程来对带有gt的标注样本的隐空间向量和没有标注样本的隐空间向量建立关系得到没有标注样本的伪标签，然后对比一下上一轮GP建模的无标注输入的伪标签，之后就可以用这个伪标签来使用监督式的方法在没有标注的数据集上进行训练。

贡献 Contributions

我们提出了一个在训练过程中基于高斯过程的框架来有效地探索无标注的数据，用来提升整体性能。所提出的方法包括了迭代式地同时训练标注的和无标注的数据。对于无标注的数据，在标注阶段使用高斯过程来评估伪标签。
提出的框架在半监督和迁移学习表现有效，通过消融实验，证明了提出的模型是能够泛化到不同网络结构的。

Model Architecture(GP-based iterative learning)

网络是用一个encoder和decoder结构组成的，提出的框架与encoder网络无关，实验阶段表明其可以很好地泛化到像VGG16，ResNet50和ResNet101上去。decoder由一组两个conv-relu层组成。输入图片 $x$ 经过encoder网络得到隐空间向量 $z$ ，这个隐空间向量 $z$ 经过decoder网络得到密度图输出 $y$ 。

模型结构图

整个训练过程分为两个阶段

1. labeled training stage

在这一阶段，我们使用有标注的数据集，用监督损失函数（比如L2 loss）去学习网络模型的参数。

2. unlabeled training stage

在这一阶段，使用高斯过程对无标注的数据点生成伪标签，然后使用监督学习的方式进行训练。

Labeled Stage

使用L2 loss来训练网络，只训练有标注数据的那部分数据样本。
$L_s = L_2 = ||y^{pred}_l - y_l||_2$

$y^{pred}_l = g(z_l,\phi_d)$ 表示的是模型的输出， $y_l$ 是ground truth， $h(x,\phi_e)$ 是隐空间向量，值得注意的是，需要额外保存中间过程的隐空间向量矩阵 $F_{z_l} = {\{z^i_j\}^{N_l}_{i=1}}$ 。这个矩阵用于后续计算无标注数据的伪标签。矩阵的维度是 $N_l \times M$ ，这里 $M$ 是隐空间向量 $z_l$ 的维度 $64 \times 32 \times 32 = 65536$ 。

Unlabeled Stage

在无标注数据的训练阶段，我们使用高斯过程来生成伪标签作为监督信息用于训练网络结构。在有标注数据的训练阶段，我们使用隐层空间向量 $F_{z_l}$ 来建模隐层空间向量与输出密度图之间的映射关系 $y = t (z)$ 。
通过高斯过程，利用标注数据和无标注数据的隐空间向量来联合建模函数 $t (\cdot)$ 的分布。
$P(t(z)|D_L, F_{z_l},T_{y_l}) \sim GP(\mu, K(F_{z_l}, F_{z_l}) + \sigma_\epsilon^2I)$
这里 $\mu$ 是通过高斯过程计算出来的函数值， $\sigma_\epsilon^2$ 设置成1， $K$ 是核函数，基于此，对于第 $k$ 个无标注样本 $x_u^k$ 的隐空间向量 $z_u^k$ 的条件联合分布就可以表示如下：
$P(t(z_u^k)|D_L, F_{z_l}, T_{z_l}) = N(\mu_u^k, \Sigma_u^k)$
这里的 $\mu_u^k$ 和 $\Sigma_u^k$ 分别是：
$\mu_u^k = K(z_u^k, F_{z_l}) [K(F_{z_l}, F_{z_l})+\sigma_\epsilon^2I]^{-1}T_{y_l}$
$\Sigma_u^k = K(z_u^k,z_u^k) - K(z_u^k, F_{z_l}) [K(F_{z_l},F_{z_l})+\sigma_\epsilon^2I]^{-1}K(F_{z_l},z_u^k)+\sigma_\epsilon^2$
$K(Z,Z)_{k,i} = \mathcal{K}(z_u^k, z_l^i) = \frac{<z_u^k,z_l^i>} {|z_u^k| \cdot |z_l^i|}$
考虑到随着有标注数据的样本 $N_l$ 慢慢地增大，对于 $K(F_{z_l},F_{z_l})$ 的维度也会变得很大，对于计算和存储是一个挑战。因此不是所有的有标注样本的隐空间向量都要用，具体来说就是只选择与无标注样本的隐空间向量相似的且最近的 $N_n$ 个有标注样本的隐空间向量来计算那个矩阵 $F_{z_l,n}$ , 直接使用 $\mu_u^k$ 来作为第 $k$ 个无标注样本的伪标签，即 $y_{u,pseudo}^k = \mu_u^k$ ,然后使用 $L_2$ 距离来优化模型，更新encoder和decoder的参数。
进一步，还要最小化使用高斯过程计算出来的 $z_u^k$ 和其最近的 $N_n$ 隐空间向量之间的方差 $\Sigma_{u,n}^k$ 得到最终的损失 $\mathcal{L}_{un}$ 。

$\mathcal{L}_{un} = \frac{1}{|\Sigma_{u,n}^k|} ||y_{u,pred}^k - y_{u,pseudo}^k||_2 +log\Sigma_{u,n}^k$

总的 $l o s s$

$\mathcal{L}_f = \mathcal{L}_s + \lambda_{un}\mathcal{L}_{un}$

实现细节 Implementation Details

使用Adam优化器，学习率为1e-5，momentum=0.9, batchsize=24，使用Nvidia Titan Xp GPU
training： random crop size = 256 $\times$ 256,
MAE和MSE作为评价指标。

实验结果 Results&Ablation Study

消融1：选择有标注数据的比例为5%，对比有无利用无标注样本及高斯过程的结果性能差异

100% labeled dataset
5% labeled
5% labeled + 95% unlabeled + Ranking Loss
5% labeled + 95% unlabeled + Gaussian Process

在这里插入图片描述

消融2：有标注样本的比例分别从5%到75%的性能差异

No-GP（labeled dataset only）
GP （labeled and unlabeled dataset）

在这里插入图片描述

效果图

在这里插入图片描述

消融3：不同的网络结构作为encoder的性能对比

在这里插入图片描述

伪标签分析：

It can be observed that the pseudo-GT errors are concentrated in the lower end of the error region as compared to the prediction errors. This implies that the pseudo-GTs are more closer to the GTs than the predictions. Hence, the pseudo-GTs obtained using the proposed method are able to provide good quality supervision on the unlabeled data.

大致意思就是说这个用高斯过程生成的伪标签是有效的，能够提供好的监督信息来训练网络。

在这里插入图片描述

消融4：可迁移性

No Adapt
Cycle GAN
SE Cycle GAN
Proposed Method

在这里插入图片描述

bridgeqiqi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data

[论文笔记 ECCV2020] Learning to Count in the Crowd from Limited Labeled Data摘要 Abstract贡献 ContributionsModel Architecture(GP-based iterative learning)整个训练过程分为两个阶段1. labeled training stage2. unlabeled training stageLabeled StageUnlabeled Stage总的losslossloss实现细节
复制链接

扫一扫