不同状态空间模型的实验对比(二)

对五个下游任务进行了实验比较,包括单/多标签分类、视觉对象跟踪、像素级分割、图像到文本生成和人/车辆再识别。

论文:https://arxiv.org/abs/2404.09516
作者单位:安徽大学、哈尔滨工业大学、北京大学

更多相关工作将在以下GitHub上不断更新
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

对于单标签分类问题,我们在广泛使用的ImageNet-1K[2]数据集上计算现有作品的准确率。如图12 (d)所示,我们可以发现,
基础版本的VMamba[60]和Mamba2D[68]在ImageNet1K数据集上取得了更好的结果,top-1的准确率分别为83.2%和83%。我们也很容易发现,目前基于mamba的视觉模型都是微小的、小的或基础的版本,很少预训练一个大型或巨大版本的Mamaba网络。总体性能与一些基于Transformer的模型相当,但仍然不如ImageNet分类数据集上的最先进的模型
在这里插入图片描述

对于多标签分类,我们选择行人属性识别(Pedestrian Attribute Recognition, PAR)任务[6],在PA100K[208]和PETA[209]数据集上进行实验。PA100K数据集包含从598个场景中收集的100,000个样本,涉及26个行人属性。我们基于默认设置(8:1:1)分割训练、验证和测试子集。
PETA数据集包含61个二值属性和19,000人的照片。训练、验证和测试子集分别包含9500、1900和7600张图像。按照其默认设置,选择35个行人属性进行实验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值