TEG: image theme recognition using text-embedding-guided few-shot adaptation(JEI)

开源代码:https://github.com/YasuoFly/ThemeRecognition

【研究背景】

随着摄影和成像技术的普及,用户产生的数字图像数量急剧增加,需要有效的数字图像管理。在这一背景下,对创建高质量相册的需求日益突显。有效的图像管理对于有意义地组织大量图像集合至关重要,尤其是在构建相册等项目时。手动分组大量图像是一个耗时且昂贵的过程,因此迫切需要先进的自动图像主题识别技术来促进这一过程。这种技术不仅可以提高效率,而且还可以在组织图像时赋予其更深层次的意义。与昂贵的手工解决方案相比,自动图像主题识别技术更加经济高效,使得数字图像管理变得更加可行。

【工作介绍】

针对上述问题,TEG引入了一种新颖的文本提示引导的少样本图像适应框架,用于图像主题识别。该框架利用预训练的对比语言-图像模型,通过文本嵌入引导的分类器和辅助分类损失来提高识别性能。

TEG: image theme recognition using text-embedding-guided few-shot adaptation(JEI)_深度学习

TEG利用一个预先训练过的视觉语言模型(CLIP),分别从输入的图像和预定义的文本提示中提取紧凑的视觉特征和文本特征。文本嵌入引导分类器充分利用视觉和文本嵌入表示,分别返回受辅助分类损失和分类损失约束的视觉和类别概率向量。

另外提出了一个新的标注数据集Theme25,包含35,655张图像,涵盖25个主题类别,用于研究图像主题识别。

TEG: image theme recognition using text-embedding-guided few-shot adaptation(JEI)_人工智能_02

【核心技术优势】

  1. 文本嵌入引导的分类器:利用预训练的CLIP模型中的图像编码器和文本编码器,允许模型在识别过程中同时考虑视觉信息和与类别相关的文本信息,增强了对图像主题的理解和识别能力。
  2. 跨模态特征融合:通过计算视觉特征向量和文本嵌入向量之间的余弦相似性,融合这些跨模态特征得到最终的类别概率分布,提高了在少样本情况下的识别性能。
  3. 辅助分类损失:引入了辅助分类损失帮助模型在学习视觉概念时更加稳定,避免了在少样本情况下的过拟合问题,从而提高了识别的准确性。

TEG: image theme recognition using text-embedding-guided few-shot adaptation(JEI)_pytorch_03

TEG在Theme25数据集以及公开可用的CIFAR100和ImageNet数据集上进行了实验。实验结果表明,所提出的方法在各种少样本设置中的识别精度方面优于现有先进方法。具体而言,在1-shot、2-shot、4-shot等少样本设置下,TEG方法均展现较高的识别准确率,并且在所有样本都用于训练时(all-shot),准确率进一步提高。


TEG: image theme recognition using text-embedding-guided few-shot adaptation(JEI)_embedding_04