论文信息: 发表于3 August 2021,MDPI期刊(sci)
背景: CH(cultural heritage)领域数据十分稀缺,原因是版权限制了重用和发布,因此不能总是有足够的数据用于训练,尤其是涉及到文化遗产的收藏品。模型在测试数据上可以很好地泛化,但不能在新的数据集上进行泛化,尤其是处理难以标记和获取的文化遗产数据时,这个挑战会增加。数据集更换时,从头开始重新训练神经网络被认为是不可行的,在大型数据集上使用预训练模型,然后只重新训练最后一层,这种办法可以大大提高模型的性能,但因为源数据集类不一定与目标域重叠,所以会降低模型的性能。工业产品中可以增加训练用数据集数量解决该问题,但对于艺术品不太可行。文化遗产数据的特点是样本量稀少,但每个样本的标注和注释都十分详尽。
本文贡献: 提出了一种基于知识图嵌入的领域自适应方法,是迁移学习的一个子领域。知识图嵌入将知识图谱投影到低维空间,在低维空间中实体和关系表示为连续向量空间,将图像中的知识图嵌入与视觉嵌入相结合,并使用Fisher线性判别式的扩展,以这些嵌入作为锚来训练神经网络,并进行实验。
知识图谱: 知识图谱嵌入方法旨在使用Node2Vec等算法将KG的一个组成部分(包括节点、实体以及它们之间的关系)映射到一个连续的向量空间。知识图嵌入是将知识图的不同部分映射到一个向量空间中,该向量空间满足某些属性并且保持图中存在的信息,每种方法都定义了一个分数函数,用于测量两个节点相对于其在映射嵌入空间中的关系的距离。(得分函数的目标:保持图中相互连接的节点在映射维度中靠近,而未连接的节点彼此远离)
对于每一个物品,通过几个谓词链接到原始源:官方网站、收藏、在数据集中的编号,URL描述等。该物品会从不同的角度与其他物品图像相关联,例如日期、材料等
数据: 源域Ds 目标域Dt,对于域的目标分类Tt Ts
分为闭集域和开集域,闭集域的类是相同的,开集域的类可以是不同的,但需要有一部分类是共享的,本文使用中世纪乐器的图像数据集作为源域,使用文艺复兴时期乐器数据库作为目标域。源域的数学表示为
X
s
=
(
x
i
s
,
y
i
s
)
i
=
1
N
X^s=\left(x_i^s,y_i^s\right)_{i=1}^N
Xs=(xis,yis)i=1N ,
x
x
x 表示输入的不同大小的图像,
y
y
y 表示该物品所在的类,
N
N
N 表示数据集大小。在这里,该知识图将数据集的图像与图中的概念相连接,从而围绕每个概念创建数据集群。因此,图像不仅与类信息链接在一起,而且还沿多个轴链接在一起。目标域的数学表示为
X
t
=
(
x
i
t
,
y
i
t
)
i
=
1
M
X^t=\left(x_i^t,y_i^t\right)_{i=1}^M
Xt=(xit,yit)i=1M 。
模型: 模型主要包含两个主要组件,编码器和维度映射器(分类器),映射器将视觉嵌入转换为与知识图嵌入相同的维度(训练之后,它被认为是编码器的最后一层),模型函数定义为:
f
=
e
∘
c
f=e\circ c
f=e∘c ,e: X->Z,将输入图像映射到一个向量一维的潜在空间中,之后是c: Z->Y,将嵌入空间映射到标签空间,分类器是一个简化的全链接神经网络。
损失函数:
- 分类损失:交叉熵损失函数
- 锚定损失:也是本文方法的核心,将知识图谱的嵌入作为锚,使得映射的视觉嵌入接近他们,创建更丰富的视觉嵌入,这个损失函数的目的在于在编码器的训练中嵌入更多信息,而不使用数据本身作为分类器的输入,因为它可能在某些数据集上丢失或在新图像上不可用。该损失函数基于传统的机器学习模型,即线性判别分析(LDA)和Fisher线性判别分析,旨在将输入数据映射到线性分隔样本的空间。
实验:
Baseline ——
SourceOnly:只使用源域的图像和标签进行训练
TargetOnly:只使用目标域的图像和标签进行训练
SourceTarget:使用源域和目标域的图像及标签进行训练
三者都没有融入知识图谱的信息!
共做了两组实验:分别是大量数据集和少量数据集的对比实验:
大量数据集:
少量数据集: