One-Shot Learning with a Hierarchical Nonparametric Bayesian Model
该篇文章通过分层贝叶斯模型学习利用单一训练样本来学习完成分类任务,模型通过影响一个类别的均值和方差,可以将已经学到的类别信息用到新的类别当中。模型能够发现如何组合一组类别,将其归属为一个有意义的父类。对一个对象进行分类需要知道在一个合适的特征空间中每一维度的均值和方差,这是一种基于相似性的度量方法,均值代表类别的基本标准,逆方差对应于类别相似性矩阵的各维度权重。One-Shot学习看起来似乎是不可能的,这是因为单一的样本只提供了相应类别的均值信息,而没有方差信息。如果给每个维度附以相同的权重或使用错误相似性矩阵,结果必定是不可靠的。
作者的模型利用从先前学习到的类别信息抽象出来的更高阶信息来估计新类别的基本标准以及适宜的相似性矩阵。随着所观测到的样本数的增多,这种估计的精度也随之提高。为了说明,考虑一下,当人类看到一个不熟悉动物时,如牛羚,很容易联想到马、牛、羊或是更为相似的物种。这是因为这些相似的物种有着更为相似的原型——马、牛、羊看起来相互长得更像,而并不像个什么家具或是汽车等。
通过高维输入空间学习相似性矩阵已经成为机器学习领域一项重要任务。许多之前的工作主要针对于通过许多带标签的样本来学习相似性矩阵,没有试图去解决One-Shot学习问题。虽然启发于人类的学习过程,但本文方法也意指于广泛应用于机器分类和AI任务。从少量带标签样本学习并进行有效的推理任务是非常重要的。本文的方法是:无参数的先验可以使得在监督或无监督模式下的任何时候都能够生成新的类别。共轭分布集成大部分参数并能够进行快速推理。
1. 分层贝叶斯模型
考虑观测一个有$N $个独立同分布的输入特征向量$\{x^1,...,x^N\} $,$x^n\in R^D $,$D $是特征的维度。假定这$N $个对象被分配到$C $个基类(level-1)&