行人重识别论文阅读8-FastReID京东快速行人重识别

最新推荐文章于 2024-08-08 07:47:07 发布

倾夏而醒

最新推荐文章于 2024-08-08 07:47:07 发布

阅读量1.3k

点赞数

分类专栏：计算机视觉学习笔记行人重识别文章标签：机器学习深度学习人工智能计算机视觉 python

本文链接：https://blog.csdn.net/qq_33977080/article/details/119040696

版权

学习笔记同时被 3 个专栏收录

42 篇文章 6 订阅

订阅专栏

计算机视觉

28 篇文章 10 订阅

订阅专栏

行人重识别

16 篇文章 12 订阅

订阅专栏

7.22 京东 Fast-ReID论文阅读

1. 解决的问题

FastReID是京东AI研究中广泛使用的软件系统，有高度模块化和可扩展的设计，有好的可管理的系统配置和工程部署。

FastReID是统一实例重标识库，允许其他人员将其他代码块插入到ReID系统，从而进一步快速的将研究思想转移到生产模型中。提供person reid，partial person reid，vehicle reid。

2. 模型概述

FastReID的亮点：

模块化和可扩展设计：可以快速实现他们的想法，无需重写数十万行代码。

可管理的系统配置：FastReID支持可选组件，主干头部聚合层损失函数训练策略。

丰富的评估体系：ROC和mINP等，以往都是用CMC评价指标。

工程部署：实现知识蒸馏模块已获得更精确更高效的轻量级模型。

提供最先进的与训练模型：容易扩展到一般的对象检索和人脸识别。

3.实验结果

3.1 Person Re-identification

Datasets:Market1501,DuKeMTMC,MSMT17.

FastReID Setting:翻转随机擦除和自动增强对训练图像进行处理。主干：Non-local IBN-ResNet101，Head：gem pooling，Aggregation：bnneck。Harder loss function。

ROC曲线请添加图片描述

请添加图片描述

实验结果：

请添加图片描述

3.2 Cross-domain Person Re-identification

问题定义：训练集和数据集不是同一个环境。

设置：提出跨域方法FastReIDMLT，采用混合标签传输，通过多粒度策略学习伪标签。用源域数据集训练模型，然后用目标域数据集的伪标签对预先训练的模型进行微调。主干：ResNet50，gem pooling，bnneck。使用hard triplet loss。

请添加图片描述

结果：

请添加图片描述

3.3 Partial Person Re-identification

请添加图片描述

实验设置：结果：
请添加图片描述

3.4 Vehicle Re-identification

数据集：VeRi，VehicleID，VERI-Wild。

请添加图片描述

4. 模型详述

整个模型由四个部分组成：图像预处理，主干，聚合和头部。

请添加图片描述

4.1 Image Pre-processing

将图像大小调整到固定大小的图像。Images can be packaged into batched and then input into the network。使用图像增强（随机擦除，随机补片和剪切等）。在图像中随机选择一个矩形区域，用随机值、另一个图像补片和零值擦除其像素，使模型有效降低过拟合风险，对遮挡具有鲁棒性。自动扩充是基于自动技术实现有效的数据扩充，以提高特征表示的鲁棒性。它使用自动搜索算法来寻找多种图像处理功能(如平移、旋转和剪切)的融合策略。

4.2 Backbone

将图像转化为特征图，使用三种主干网络：ResNet，ResNeXt，ResNeSt。同时还将关注非局部模块和实例BN层。

4.3 Aggregation

聚合层的作用是将主干生成的特征图聚合为全局特征图。使用四种聚合方法：最大池化，平均池化，GeM池化，注意力池化。池化层输入是： $\mathbf X \in \mathbb R^{W \times H \times C}$ 。以 $\mathbf f \in \mathbb R^{1 \times 1 \times C}$ 。全局特征向量 $\mathbf f = [f_1,...,f_c,...,f_C]$ 。
$f_c = \max_{x \in \mathbf X_c} x \\ Avg Pooling: f_c = \frac 1 {|\mathbf X_c|} \sum_{x \in \mathbf X_c} x \\ GeM Pooling: f_c = (\frac 1 {|\mathbf X_c|} \sum_{x \in \mathbf X_c} x^{\alpha})^{\frac 1 \alpha} \\ Attention Pooling: f_c = \frac 1 {|\mathbf X_c* \mathbf W_c|}\sum_{x \in \mathbf X_c,w \in \mathbf W_c} w*x$
$\alpha$ 是控制系数， $\mathbf W_c$ 是softmax注意力权重。

4.4 Head

Head 是解决聚合模块生成的全局向量的部分。包括BN Head，线性层Head，Reduction Head。

请添加图片描述

BN：batch normalization。用于解决内部协变量偏移，因为很困难去训练饱和非线性的模型。给定一系列的特征向量 $\mathbf f \in \mathbb R^{m \times C}$ ，m是batch中采样的数量。特征向量bn可以表示为 $\mathbf f_{bn} \in \mathbf R^{m \times C}$ :
$\begin {cases} \mu = \frac 1 m \sum_{i=1}^m \mathbf f_i,\\ \sigma^2 = \frac 1 m \sum^m_{m=1} (\mathbf f_i - \mu)^2,\\ \mathbf f_{bn} = \gamma \cdot\frac {\mathbf f - \mu} {\sqrt{\sigma ^2 + \epsilon}} + \beta \end {cases}$

$\gamma,\beta$ 是可训练尺度和变换参数， $\epsilon$ 是添加到小批量方差中的常数。

Reduction layer：使高纬度特征成为低维度特征，2048dim-> 512 dim.

Decision layer：输出不同类别的概率，为后面模型训练区分不同的类别。

4.5 Loss Function

四种损失函数：CrossEntropy loss，Arcface loss，Circle loss，Triplet loss。

Cross-Entropy Loss：
$\mathcal L_{ce} = \sum^C_{i=1} y_i \log \hat y_i + (1-\hat y_i)\log (1- \hat y_i)$
$\hat y_i = \frac {e^{\mathbf W_i^T\mathbf f}} {\sum^C_{i=1}e^{\mathbf W_i^T\mathbf f}}$ ，交叉熵损失使预测logit值接近真实值。交叉熵促使最大logit与其他所有的logit之间的差异变大，这与有界梯度一起降低了模型的适应能力，导致模型对预测过于自信。反过来会导致过拟合。标签平滑使倒数第二层的激活函数靠近正确的类模板，同时远离不正确的类模板。所以可以定义为：
$y_i = \begin{cases} 1- \delta, j=c,\\ \frac {\delta} {C-1}, j \neq c. \end{cases}$
ArcFace Loss：将笛卡尔坐标映射到球面坐标。 $\mathbf {W^T_i f}= \mathbf {\|W_i\|\|f\|\cos \theta_i}$ ，其中 $\theta_i$ 是 $\mathbf {W_i,f}$ 之间的角度。通过l2归一化将 $\|\mathbf W_i\|=1$ 并且通过l2归一化将嵌入特征f修正re-scale至s， $\hat y_i = \frac {e^{s \cos \theta_i}} {\sum^C_{i=1}e^{s\cos \theta_i}}$ ，为了同时增强类内紧密度和类间差异，ArcFace在类内度量中田家姨姑父家的角度惩罚m：
$\hat y_i = \frac {e^{s\cos (\theta_i+m)}} {e^{s\cos (\theta_i+m)} +\sum^{C-1}_{i=1,i \neq c}e^{s\cos \theta_i}}$
Circle Loss

Triplet Loss：保证样本离正对距离近，离负对距离远。 $x^a_i,x^p_i,x^n_i$ 分别代表锚，正样本和负样本。

$D(x^a_i,x^p_i)+m \lt D(x^a_i,x^n_i)$ ，有N个样本的三元组损失表示为：
$\sum^N_{i=1}[m + D(g^a_i,g^p_i)-D(g^a_i,g^n_i)]$
m表示正对和负对的边界。

4.6 Training Strategy

Learning rate warm-up：有助于建环模型训练的过早过度适应。有助于保持模型深层的稳定性。

Backbone Freezing：为了重新训练分类网络以满足我们任务的要求，我们使用从任务中收集的数据在ImageNet预训练模型上进行微调。

4.7 Distance Metric

深层空间重建：有人物图像x和y，将其特征表示为 $\mathbf x ~for~ x,\mathbf y ~for~y.$ 尺寸分别为 $w_x\ times h_x \times d,w_y \times h_y \times d$ 。来自N个位置的总N个空间特征被聚合成矩阵 $\mathbf X = [\mathbf x_n]^N_{n=1}$ ,同样构建gallery feature matrix: $\mathbf Y=\{\mathbf y_m\}^M_{m=1} \in \mathbb R^{d \times M}，M=w_y \times h_y$ ,然后， $\mathbf x_n$ 可以再 $\mathbf Y$ 中找最相似的空间特征进行匹配，匹配得分 $s_n$ 。因此我们试图得到X所有空间特征相对于Y的相似分数，最终匹配分数定义为: $\sum^N_{n=1} s_n$ 。

4.8 Post-processing

在Fast ReID中，有两种重排序方法：K-reciprocal coding和Query Expansion。

QE：给定查询图像，使用它查找m个相似的库图像，查询特征定义为 $\mathbf f_q$ ，相似的库特征被定义为 $\mathbf f_g$ ，然后通过对验证后的库特征和查询特征求平均值，构造新的查询特征。新查询特征表示为：
$\mathbf f_{q_{new}} = \frac {\mathbf f_q + \sum^m_{i=1}\mathbf f^{(i)}_g} {m+1}$
新查询图像特征被用于图像检索。

4.9 Evaluation

采用常用的CMC和mAP，同时增加两个：ROC和mINP衡量指标。

CMC：cumulative matching cure

mAP：mean Averaage Precision

ROC：Receiver Operating characteristic

mINP：mean inverse negative penalty

4.10 Visualization

提供rank list tool来检索结果。

4.11 Deployment

在FastReID中设计知识提取模块，实现高精度高效率的轻量级模型。

请添加图片描述

老师模型深，没有局部模型，有很多技巧，学生模型简单。使用two-stream方法训练该网络，学生模型和教师莫明星分别输出分类器 $l_s,l_t$ ，特征图 $f_s,f_t$ ，希望学生尽可能多的学习教室模型的分类能力，logits学习定义为：
$\mathcal L_{logit} = \|\mathbf l_s-\mathbf l_t\|_1$
为了保证学生模型和教师模型在特征空间分布上的一致性，采用基于Kullback-Leibler散度的概率知识转移模型对学生模型进行优化：
$\begin{cases} \mathcal L_{PKT} = \sum^N_{i=1} \sum^N_{j=1,i \neq j} p_{j|i}\log (\frac {p_{j|i}} {p_{i|j}}) \\ p_{i|j} = \frac {K(\mathbf f^i_s,\mathbf f^j_s)} {\sum^N_{j=1,i \neq j}K(\mathbf f^i_s,\mathbf f^j_s)} \\ p_{j|i} = \frac {K(\mathcal f^i_s,\mathbf f^j_s)} {\sum^N_{j=1,i \neq j} K(\mathcal f^i_s,\mathbf f^j_s)} \end{cases}$
K(:,:)代表余弦相似性函数。

同时，学生模型需要reid 损失优化整合网络，总的损失为：
$\mathcal L_{kd} = \mathcal L_{logit} + \alpha \mathcal L_{PKT} + \mathcal L_{reid}$
训练结束，使用 $\mathbf f_s$ 进行推理.

5. 实验复现

Market1501 bagtricks_R50.yml

方法1：

下载

请添加图片描述

训练

请添加图片描述

方法2：

请添加图片描述

方法3：

请添加图片描述

方法4：

请添加图片描述

Method	Pretrained	Rank@1	Rank@5	Rank@10	mAP	mINP	metric
BoT(R50)训练	ImageNet	94.40%	98.37%	98.99%	86.25%	60.34%	90.36%
BoT(R50)下载	ImageNet	93.38%	97.71%	98.63%	85.06%	59.30%	89.22%
BoT(R50-ibn)	ImageNet	94.36%	97.75%	98.78%	86.55%	61.79%	90.46%
BoT(S50)	ImageNet	95.28%	98.16%	99.82%	87.97%	65.50%	91.62%
BoT(R101-ibn)	ImageNet	95.22%	98.19%	98.81%	87.98%	65.27%	91.56%