【论文精读】The Missing Link: Finding label relations across datasets

joyce_peng

已于 2022-08-23 13:47:32 修改

阅读量880

点赞数

分类专栏：深度学习文章标签：深度学习人工智能机器学习

于 2022-08-15 18:56:19 首次发布

本文链接：https://blog.csdn.net/joyce_peng/article/details/125958161

版权

深度学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

一、背景 & 概要

和之前其他论文工作不同的是，论文的主要目的是探究不同数据集间标签的关系，而不是将其合并。论文中提到的关系是identity、parent/child、overlap。为了探究这些关系，提出了几种方法：基于language、基于vision、基于两者。
关系：

identity：相等。一个数据集中的标签a和另一个数据集中的标签b有相同的视觉概念，如ADE20k中的sofa和COCO中的couch。
Parent/child：子标签的关系，比如ADE20k中的animal和COCO中的cow
Overlap：两个标签有重叠但不相同，比如ADE20k中的floor和COCO中的rug-merged，都描述了覆盖地面的地毯，但floor包括了木质地板这种不属于rug-merged的，rug-merged包括了不在地上的地毯。

二、方法

探索关系的几种方式

2.1 视觉方式

在这里插入图片描述
在数据集A上训练的p_A预测数据集B的实例i_b，预测标签名a得到预测集合p_A(a|i_b)，共预测了n_b个实例，将这些probability平均一下得到S_a->b, 同样的方法得到S_b->a，然后两者平均得到最终分数R_a,b=(S_a->b+S_b->a)/2。通过限制阈值R_a,b得到标签a和标签b的关系。
使用了两种不同的预测模型p_A(a|i_b)：
Pixel Probabilities：使用A数据集上的分割模型预测B。我们平均实例所有像素的概率值。
Visual Embeddings：A和B使用相同的分割模型（A上训练的），其模型不带分类头，提取A和B上的feature。
训练细节这里不做表述。

2.2 关系类型

理论集合set theory 如一中表述，这里关系是基于两个假设，1、标签a和标签b中仅有一种关系（如果有实例会被预测为a和b）2、相同数据集的标签是无交集的
关系为identity、parent/child、overlap。
在这里插入图片描述

关系不对称Score Asymmetry比如animal的分类器会给cat这个实例高分，但cat分类器不会给animal高分，所以大的不对称性表示了这两个是parent-child关系，具体判断如下：
在这里插入图片描述

2.3 使用语言预测关系类型

WordNet和Word2Vec。
WordNet：

如果a和b可以映射到同一个同义词集，则为identity相等关系。
如果a的同义词集是b的同义词集的祖先，则a是b的parent，即b是a的child。
如果a和b共享至少一个后代，则他们处于重叠关系，比如WordNet中truck和car重叠，因为他们都有一个后代minivan。
其他a和b情况，估计两个同义词集之间的路径相似性，基于他们最近的共同祖先的接近程度。如果分类a和b有关系就加1，会产生一个稠密矩阵R（会发现identity强度为2，parent/child关系为1到2之间，其余在0和1之间）

Word2Vec：
Word2Vec之前在wikipedia上训练，产生500d的向量，通过cosine similarity计算向量间相似度，因为这是一个非对称的关系，只能通过2.2中的set theroy来确定关系类型

2.4 视觉和文本一起探索关系

加了一些物理逻辑来提高准确率。
会将2.1得到的R_a,b加个系数n。
如果WordNet中a和b是identity关系，那通过系数n放大阈值T；同样的如果是parent/child关系，会通过系数n缩小阈值T。

3. 评测

MSeg是2020年的一篇分割领域的论文，合并分割领域的几个数据集并进行人工合并标注。
评测方式： 1）将A和B两个数据集都映射到MSeg的空间内，分别建立与MSeg的关系，并手动检查这些关系是否正确。2.1中的图像关系预测几乎都是对的。2）通过MSeg来确定A和B标签的关系，如A标签和MSeg标签相等，且MSeg标签与B标签相等，则A和B标签是相等关系，以此类推parent/child关系等。3）量化标准：通过预测置信率对所有可能的标签对进行排序，并计算PR曲线和AUC，这里为二分类，是否有关系。最后的acc为各个关系结果的平均值。
评测数据集： ADE20k、COCO panoptic、Berkeley Deep Drive
结论：

使用2.2的理论集合推导，手动调查关系，发现这个阶段几乎不需要人工矫正，唯一的例外是一些关系被更改为部分关系，这是理论集合无法自动生成的。
通过precision-recall曲线表明，基于视觉的比基于语言的好，基于语言的中WordNet比Word2Vec好（因为Word2Vec对于语义相关的标签给予高分）。