不同状态空间模型的实验对比（二）_tramsformer和mamba图像分割-CSDN博客

本文链接：https://blog.csdn.net/liangdaojun/article/details/138283884

对五个下游任务进行了实验比较，包括单/多标签分类、视觉对象跟踪、像素级分割、图像到文本生成和人/车辆再识别。

论文：https://arxiv.org/abs/2404.09516
作者单位：安徽大学、哈尔滨工业大学、北京大学

更多相关工作将在以下GitHub上不断更新
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

对于单标签分类问题，我们在广泛使用的ImageNet-1K[2]数据集上计算现有作品的准确率。如图12 (d)所示，我们可以发现，
基础版本的VMamba[60]和Mamba2D[68]在ImageNet1K数据集上取得了更好的结果，top-1的准确率分别为83.2%和83%。我们也很容易发现，目前基于mamba的视觉模型都是微小的、小的或基础的版本，很少预训练一个大型或巨大版本的Mamaba网络。总体性能与一些基于Transformer的模型相当，但仍然不如ImageNet分类数据集上的最先进的模型。
在这里插入图片描述

对于多标签分类，我们选择行人属性识别(Pedestrian Attribute Recognition, PAR)任务[6]，在PA100K[208]和PETA[209]数据集上进行实验。PA100K数据集包含从598个场景中收集的100,000个样本，涉及26个行人属性。我们基于默认设置(8:1:1)分割训练、验证和测试子集。
PETA数据集包含61个二值属性和19,000人的照片。训练、验证和测试子集分别包含9500、1900和7600张图像。按照其默认设置，选择35个行人属性进行实验。