【图文】统一的基于文本的行人检索:大规模多属性和语言检索基准

在这里插入图片描述Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark
西安交通大学
针对 基于文本的行人检索的预训练 展开探索

Motivation
Data Scarcity

Contributions

  • MALS(Multi-Attribute and Language Search dataset for person retrieval):本文引入了一个大型的多属性和语言搜索数据集,用于基于文本的person retrieval,包含150万+图像-文本对,比现有的CUHK-PEDES大37.5倍,所有图像都有丰富的(27个)属性注释。
  • APTM(Attribute Prompt Learning and Text Matching Learning)框架,基于MALS提出了一种联合属性提示学习和文本匹配学习框架,考虑属性和文本之间的shared knowledge,两个任务互补并相互受益。
  • 提出的方法在三个具有挑战性的real-world基准实现了competitive的召回率。此外,我们观察到文本匹配任务也有助于属性识别,在PA-100K上对APTM进行微调,我们获得(obtain)82.58%mA的具有竞争性的性能。

MALS

  1. 将其他数据集的文本描述作为prompts,利用扩散模型(ImaginAIry)生成图像-文本对;
  2. 针对生成的不能满足训练需求的图像进行后处理(post-process)。删除灰度、模糊和嘈杂的图像,利用OpenPose检测的关键点作为紧凑的边界框重新剪裁图像;
  3. 图像描述校准:初始图像-文本对中的多个图像共享相同的文本描述,导致文本多样性较差。因此,我们利用BLIP模型为每一张合成图像生成对应的文本描述,最终形成图像-文本对,示例Fig. 1。
  4. 属性注释:我们首先以和Market-1501属性数据集相同的属性空间。通过文本关键词匹配(显示匹配和隐式扩展),自动为每一对图像-文本对注释了27种不同类型的属性,如Table 2。
    (相关的属性通常突出图像和文本样本的关键特征,许多基于文本的person retrieval工作表明了属性在性能改进方面的潜力,受此启发,我们用属性标注进一步增强了我们的MALS。)
    在这里插入图片描述
    Fig.1. Selected image-text pairs from our MALS (top) and CUHK-PEDES (bottom). We could observe that the visual gap between synthetic data and real ones is relatively small. In MALS, image-text pairs match almost as well as manual annotation, although there are some flaws occasionally. It is worth noting that images in MALS are high-fidelity with rich and diverse variations in terms of pose, appearance, background, etc.
    在这里插入图片描述Table 2: Attribute space consists of 27 attributes. Here we show the attribute category, the name in the annotation file, and the available label choices.

APTM
联合属性提示学习和文本匹配学习框架
在这里插入图片描述
可以简单理解为权重shared的双流结构吗

实验在CUHK-PEDES、RSTPReid和ICFG-PEDES数据集上评估了APTM(微调过程中优化ITC、ITM和MLM损失)。APTM在三个数据集上均达到了SOTA的R1
在这里插入图片描述
Table 3: Performance Comparison on CUHK-PEDES

这篇能学一下文章撰写结构

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【资源简介】 基于Python的深度跨模态哈希检索程序的设计与实现源码+项目说明.zip 本项目是《python程序设计语言》课程期末实验项目及其说明文档 项目名称:基于 Python 语言的深度跨模态哈希检索程序的设计与实现 项目内容:使用 Python 语言设计并实现基于深度学习的跨模态哈希检索程序算法, 在三个广泛使用的基准数据集上进行相关实验,并且与一些先进的跨模态哈希算法进行 比较分析。 运行下列命令即可安装本项目所需的三方库: pip install -r requirements.txt 数据集下载: 下载数据集文件和预训练模型。我们使用与 SCAN 相同的预提取的特征和分割, 在 Preprocessing 下: data_split_1.py: 划分训练集、测试集、验证集 resize_data_2.py: 长宽比例不变,将短边拉伸为 256 count_vocab_3.py: 统计每个单词的词频 convert_annotations_4.py: 将.txt 格式的标注文件转换为.json build_dictionary_5.py: 构建单词编号,即查询字典 模型训练: 在数据预处理完成后,在 config.py 中配置各文件的路径以及训练的参数。 1. 训练/验证数据 train-data: 训练数据;val-data: 验证数据 2. 训练参数 image-model: 指定图像 text-model: 指定文本 context-length: 文本输入序列长度 batch-size: 训练时单卡 batch-size。(保证训练样本总数 > batch-size * GPU 数,至少 满足 1 个训练 batch) max-steps: 训练步数,也可通过 max-epochs 指定训练轮数。 3. 输出 图文特征提取: 支持使用 GPU 单卡进行图文特征提取 【说明】 1、项目源码在上传前,都经过本地成功运行,功能测试无误。请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、机械电子信息等相关专业背景的在校大学生、专业老师 行业从业人员等下载使用。 3、用途:项目代表性强,具有创新性和启发性,故具有挺高的学习借鉴价值。不仅适合小白入门进阶,还可作为毕设项目、课程设计、大作业、比赛初期项目立项演示等。 4、如果基础还不错,又热爱学习钻研,也可基于此项目基础上进行修改进行二次开发。 本人也是技术狂热者,如果觉得此项目对您有价值,欢迎下载使用! 无论您是运行还是二次开发,遇到问题或困惑,欢迎私信交流学习。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ca1m4n

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值