Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
考虑零样本的识别问题,在没有训练样本的情况下对某个类别学习一个分类器,仅仅使用该类别的词向量和其他类别(有视觉数据提供)关系。处理不熟悉或者新类别的关键在于从熟悉类别迁移知识到新类别。本文中,以图卷积神经网络为基础,提出了一种同时使用语义向量和类别间关系来预测分类器的方法。给定一个学习好的知识图谱,本文将语义向量作为每个节点的输入,在一系列图卷积之后,对每个类别得到相应的分类器。在训练过程中,用少量类别的分类器来学习GCN的参数。测试时,用这些filter来预测未见过类别的分类器。
本文同时利用了隐式的知识表示(词向量)以及显式的关系(知识图谱)来学习新类别的视觉分类器。知识图谱的每一个节点对应于一个语义类别,这些点通过关系边连接,每个节点的输入是每个类别的向量表示,之后使用图卷积在不同类之间进行知识迁移。具体的,本文训练了一个6层的GCN用于输出不同类别的分类器。
本文关注于图片分类问题,考虑两种测试设置
- 最终的测试类别只有零示例的类别
- 测试时的标签来自于见过或者未见过的类别,叫做广义的零示例设置
方法
图卷积
图卷积原本用于进行半监督的实体分类,给定一个用词向量或者文本特征表示的目标实体,目标是进行分类。举例来讲,猫和狗都可以被标注为哺乳动物,椅子和沙发都可以被标注为家具,同时假设有这么一幅图,点表示实体,边表示实体之间的关系。
形式上,给定一个有n个实体的数据集 ( X , Y ) = { ( x i , y i ) } i = 1 n (X,Y)=\{(x_i,y_i)\}_{i=1}^n (X,Y)={
(xi,yi)}i=1