UFineBench

蹊径观山

于 2024-08-03 04:07:56 发布

阅读量12

点赞数

针对文本的行人检索任务，作者人工标注了一个全新的有着超细粒度文本描述的数据集UFine6926（平均单词数为先前数据集的三到四倍），提出了一个更能够反映真实场景中高度复杂变化的测试集UFine3C，一个更准确反映检索能力的测试指标mSD和一个有着细粒度设计的新算法CFAM。作者主要证明了，在超细粒度数据集上进行训练得到的模型能够更好地感知细粒度的属性信息并泛化到真实场景中。华科大&华为提出：超细粒度文本行人检索的新数据集+新算法+新基准

论文：https://arxiv.org/abs/2312.03441

数据集及代码地址：

https://github.com/Zplusdragon/UFineBench

针对基于文本的行人检索任务，我们人工标注了一个全新的有着超细粒度文本描述的数据集UFine6926（平均单词数为先前数据集的三到四倍），提出了一个更能够反映真实场景中高度复杂变化的测试集UFine3C，一个更准确反映检索能力的测试指标mSD和一个有着细粒度设计的新算法CFAM。我们主要证明了的是，在超细粒度数据集上进行训练得到的模型能够更好地感知细粒度的属性信息并泛化到真实场景中！

简介

现有的基于文本的行人检索数据集通常具有相对粗糙的文本注释，这极大限制了模型对真实场景中查询文本细粒度语义的理解。为了解决这一问题，我们提出了一个专注于超细粒度的文本行人检索的名为 UFineBench 的新基准。首先，我们构建了一个名为 UFine6926 的新数据集，其中包含大量行人图像，每张图像有着两个人工标注的详细的文本描述，平均每个描述有着80.8个单词，平均单词数是先前数据集的三到四倍。同时，除了标准的域内评估，我们还提出了一种更贴近真实场景的特殊评估范式。该范式包含一个新的跨域、跨文本粒度和跨文本风格的三跨评估集，命名为 UFine3C，以及一个用于准确衡量检索能力的新评估指标，名为mSD。此外，我们还专为超细粒度文本行人检索设计了一种更高效的算法 CFAM。它通过采用共享的跨模态粒度解码器和硬负匹配机制实现了更好的细粒度的挖掘。通过标准域内评估，CFAM在各种数据集上建立了竞争性的性能，特别是在超细粒度的 UFine6926 上。此外，通过在 UFine3C 上进行评估，我们证明了在 UFine6926 上进行训练相比其他粗粒度数据集显著提高了对真实场景的泛化能力。

UFine6926：

UFineBench_细粒度

由上图左列可以看到，现有的数据集普遍存在一些共性问题：1）文本粒度非常粗糙导致很多细节的行人属性特征没有得到显式的描述与挖掘，这样会导致模型在实际应用中很难感知到某些关键性细节属性特征；2）文本描述模糊性太大，粗糙的文本描述极易导致一句本来应该和一个行人身份高度绑定的文本却在语义上能够很好地对应另外一个行人身份，这会在训练过程中引入很大的不确定性因素，影响模型的性能表现。

而由上图右列可以看到，我们提出的UFine6926数据集中的文本粒度非常精细，基本上一个行人身上的任何细节性特征都有着对应的描述，从而很好地解决了上述问题。

UFineBench_泛化_02