在半监督学习中，用于细粒度图像分类中精确增强的伪标记方法-CSDN博客

本文链接：https://blog.csdn.net/boboly186/article/details/142175309

2024年9月5日提交的原论文《PEPL: Precision-Enhanced Pseudo-Labeling for Fine-Grained Image Classification in Semi-Supervised Learning》

GitHub - TianSuya/SemiFG: A Semi-supervised framework for fine grained classificationA Semi-supervised framework for fine grained classification - TianSuya/SemiFGhttps://github.com/TianSuya/SemiFG（注：作者说代码已开源到github，截止2024.09.12暂未看到代码）

一. 研究背景

1. 研究问题：这篇文章要解决的问题是细粒度图像分类中的标注数据稀缺问题。细粒度图像分类涉及区分视觉上相似的类别，这在物种识别、产品分类和医学诊断等应用中起着重要作用。然而，由于获取高质量标注数据的成本高昂且耗时，细粒度图像分类仍然面临重大挑战。

2. 研究难点：该问题的研究难点包括：标注数据稀缺、细粒度特征的分辨难度大、标准数据增强和图像混合技术会破坏关键的细粒度特征。

3. 相关工作：现有的半监督学习方法，如伪标签和一致性正则化，已经在有限监督下提高了模型性能。然而，这些方法在细粒度图像分类中存在显著挑战。由于标准数据增强技术可能会破坏关键的细粒度特征，而图像区域混合可能会忽略对准确分类至关重要的细节。

二. 研究方法

这篇论文提出了精度增强伪标签（Precision-Enhanced Pseudo-Labeling, PEPL）方法，用于解决细粒度图像分类中的半监督学习问题。具体来说，

1. 初始伪标签生成：首先，PEPL方法借鉴了FreeMatch的概念，通过自适应选择置信度阈值来生成初始伪标签。这些阈值基于模型在未标记数据上的预测性能动态调整。具体公式如下：

其中，C表示类别总数，β是预设的超参数，μB表示当前未标注数据的批量大小，qb表示模型的预测输出，τt表示第t步的全局阈值。

2. 混合语义伪标签生成：其次，为了更好地利用未标记图像的潜力，PEPL方法提出了两阶段方法。在第一阶段，随机混合图像并估计混合图像中包含的语义信息。基于前一阶段生成的伪标签，为混合图像创建混合语义伪标签。具体公式如下：

其中，表示从输入a中移除的部分，表示混合到输入a中的部分，S(Ia)和 S(Ib)分别是输入a和b的归一化激活图。

3. 损失函数：最后，整个框架的损失函数分为监督损失Lsup和无监督损失 Lunsup，计算公式如下：

其中，pm表示输入xi在参数为θ时的预测输出，H(⋅)表示交叉熵损失函数，ya和 yb分别是两个语义伪标签，γ和λ分别表示监督和无监督损失的权重。

三. 实验设计

为了评估PEPL的有效性，作者在两个标准的细粒度分类数据集上进行了实验：CUB 200 2011和Stanford Cars。具体实验设置如下：

1.数据集：CUB 200 2011数据集包含11,788张图像，涵盖200个鸟类物种，其中5,994张用于训练，5,794张用于测试。Stanford Cars数据集包含16,185张汽车图像，涵盖196个车型，其中8,144张用于训练，8,041张用于测试。

2.实验环境：实验使用单个NVIDIA A800 80G GPU进行，预训练的ResNet50作为基础分类模型。整体训练设置为200个epoch，标记数据的批量大小为16，未标记数据的批量大小为112（µ = 7）。

3.超参数配置：初始学习率为0.01，每80个epoch减少0.1，达到0.0001后应用余弦退火调度器逐渐降低学习率至0，来训练最后40个迭代。伪标签生成的超参数β设为0.999以确保稳定的增长趋势。监督和无监督损失的权重（γ和λ）均设为1。

四. 结果与分析

1. 主要结果：与经典的半监督学习方法（如Pi-Model和PseudoLabel）以及最先进的方法（如FlexMatch和FreeMatch）相比，PEPL方法在不同标签比例下的分类准确率均表现优异。例如，在CUB 200 2011数据集上，使用20%的标签数据时，PEPL方法的准确率比全监督模型提高了13%。