前言
zero-shot learning(ZSL)是近几年研究的一个热点问题,每年在计算机视觉领域的顶级期刊都会有几篇典型的论文被刊登,比如CVPR。在传统的计算机视觉任务中,一般以多分类问题为基础,比如我们要识别出几个类别:狗、椅子、人,在训练分类模型时,我们会输入三种类别的图像数据去训练模型,对于给定的一个新图片,模型就可以给出一个标签(这张测试图像属于狗、椅子或人)。这个时候就有学者给出不同的想法:
- 当训练样本的标签类别和测试样本的标签类别一致时,即测试样本的图像类别都是训练样本中出现过的,这属于我们常说的多分类任务。
- 当测试样本的标签类别和训练样本不一致时,即测试样本的图像类别有一类或者更多类没有在训练样本中出现过,这个问题就属于zero-shot learning研究的范畴。
比如上述的多分类任务,突然待测图片是一张汽车,计算机识别的时候就有了困难,计算机通过模型学习得到知识中没有这个标签,但又不得不给出预测......而ZSL从一种新的角度来解决这种问题。在ZSL中,测试样本的某一类别在训练样本中未出现,但是可以通过某些方法提取这个类别的特征,然后通过语料知识库,可以将这个未知的样本描述出来。
zero-shot learning相对比计算机视觉的其他问题比如多分类、目标检测等,一个重要理论基础就是利用高维语义特征代替样本的低维特征,使得训练出来的模型具有迁移性。我们知道卷积神经网络具有将低维的图像特征(像素