使用扩散模型去做图像分类
摘要
虽然许多无监督学习模型关注于一个任务家族,无论是生成性的还是歧视性的,但我们探索了一个统一的表征学习者的可能性:一个使用单一的训练前阶段来同时处理两个任务家族的模型。我们确定扩散模型作为一个主要的候选模型。扩散模型作为一种最先进的图像生成、去噪、内画、超分辨率、操作等方法而日益突出。这种模型包括训练一个U-Net来迭代预测和去除噪声,所得到的模型可以合成高保真度、多样化、新颖的图像。U-Net体系结构,作为一种基于卷积的体系结构,以中间特征映射的形式生成一组不同的特征表示。我们提出了我们的发现,这些嵌入是有用的噪声预测任务之外,因为它们包含鉴别信息,也可以用于分类。我们探索了提取和使用这些嵌入进行分类任务的最佳方法,展示了在ImageNet分类任务上的有希望的结果。我们发现,通过仔细的特征选择和池化,扩散模型在分类任务中优于类似的生成鉴别BigBiGAN方法。我们研究了迁移学习机制中的扩散模型,检查了它们在几个细粒度视觉分类数据集上的性能。我们将这些嵌入与由竞争架构和分类任务的预训练生成的嵌入进行比较。
方法
评估自我监督预训练有效性的两种最常见的方法是线性探测和微调,我们尽可能地与VISSL [71]记录的流行食谱进行匹配。虽然相关,但这些测试了训练前的不同属性。线性探测在冻结特征之上学习批归一化和线性层,测试学习到的特征表示的效用它显示了预训练前是否学习解纠缠表示,以及这些特征是否具有有意义的语义相关性。另一方面,微调学习批归一化和线性层,但没有冻结特征。在微调机制下,我们将预训练方法作为一种昂贵的权值初始化方法,并对整个体系结构进行分类再训练。在本文中,我们更多地关注冻结特征的代表能力,这在细粒度分类和少量镜头学习等领域特别感兴趣,这些领域的数据可能不足以进行微调。此外,这允许我们陈述关于学习的特性的效用,而不是学习的权重。我们注意到,扩散模型就像规则的卷积网,因为它们本身并不产生线性特征,而是在网络的不同点上生成一系列特征映射。因此,与其他cnn类似,
我们使用池化和扁平化的组合来生成每个图像的向量特征表示。通道的深度和特征图的大小自然都相当大,所以除了标准的池化之外,我们还尝试了其他的方法。
我们研究了多层感知器头。由于规模较大,
我们也尝试将cnn作为一种学习过的池化机制,并在附录中给出了更完整的设计细节。
我们还研究了注意力头对空间和通道信息进行适当聚合的能力,详见附录。
结果:Main Results: ImageNet Classification
首先,我们在表1中展示了扩散的线性探测性能,使用了我们通过第4.1.1节中描述的消融所选择的设置。作为一个基线,我们与扩散预训练的分类器进行比