关键词:小样本学习 one-shot learning 度量学习 孪生网络 图像分类
论文地址: https://www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf
代码地址:https://github.com/sorenbouma/keras-oneshot
原作对论文的解读:https://sorenbouma.github.io/blog/oneshot/
目录
一. Abstract
二. Approach Property
三. Related Work
四. Deep Siamese Networks for Image
五. Experiments
六. Conclusions
七. References
Abstract
这篇论文探索了一种新的方法——卷积孪生神经网络,它利用独特的网络架构对输入图像进行相似度排名。网络经过训练之后,不仅可以对新数据进行有效预测,并且可以预测未知分布的新类别。该卷积结构的网络,能够在 one-shot 分类任务中取得非常好的结果,同时也超越了其他表现优异的深度学习模型。
【人类具有很强的获取和识别新模式的能力。特别地,当出现外部刺激,人们能够快速理解新的概念,然后根据未来的认知中去扩展这些概念的变化[1]。
one-shot learning,这个概念在文献[1][2]第一次被提出。它和zero-shot learning不同,zero-shot learning中用于分类的目标,不会出现在样本当中[3]。
在这篇论文中,提出的新方法对模型的输入结构做了限制,使其能够从少量的样本中进行学习。通常情况下利用带有大量参数的模型来构建非线性网络,并且使用很多这样的的非线性网络层去捕获在输入空间中变换图像的特征,同时采样大量的数据来防止过拟合[4][5]。】
Approach Property
实验中,使用的孪生卷积神经网络,a) 能够学习到一般的图像特征,甚至在小数据集上,这些特征也能对未知类别的数据分布进行预测;b) 对于源数据中成对的样本,能够利用标准的优化技术对其进行训练;c) 使用深度学习技术,不依赖于特定领域的知识。
Related Work
1. 针对利用少数据集完成 one-shot 任务,提出可变的贝叶斯框架[6]<2006>
2. 从认知科学的角度出发,针对字符识别提出了 Hierarchical Bayesian Program Learning (HBPL) [7]<2013>
3. 从未知讲话者识别新的词汇,提出 Generative Hierarchical Hidden Markov model[8]<2014>
4. 通过从其他类别迁移样本,达到增加目标类别训练样本的目的[9]<2012>
5. 利用贝叶斯网络预测数据属性[10]<2009>
6. 进行 one-shot 任务的姿势识别[11]<2012>
Deep Siamese Networks
孪生卷积网络模型架构如下:
1. 卷积孪生网络的最佳模型架构如下:
从以上模型架构中可以看出,该网络由4个卷积层和一个全连接层构成。其中,全连接层和最后的概率输出采用的是sigmoid激活函数,其余的使用的是Relu激活函数。对两个网络输出的全连接层进行L1距离计算,各节点计算出来的距离带有不同权重,该权重在训练期间由网络学习得到,最后将计算出来的距离之和输入sigmoid函数中进行概率预测,
如公式(1):
σ ( ∑ j α j ∣ h 1 , L − 1 ( j ) − h 2 , L − 1 ( j ) ∣ ) \sigma(\sum_{j}\alpha_j|h^{(j)}_{1,L-1}-h^{(j)}_{2,L-1}|) σ(j∑αj∣h1,L−1(j)−h2,L−1(j)∣)
其中 σ \sigma σ是sigmoid激活函数, α j \alpha_j αj是由模型在训练期间学习到的参数
2. Loss function: 采用交叉熵损失函数,如公式(2):
ζ ( x 1 ( i ) , x 2 ( i ) ) = y ( x 1 ( i ) , x 2 ( i ) ) l o g p ( x 1 ( i ) , x 2 ( i ) ) + ( 1 − y ( x 1 ( i ) , x 2 ( i ) ) l o g ( 1 − p ( x 1 ( i ) , x 2 ( i ) ) ) + λ T ∣ w ∣ 2 ) \zeta(x_{1}^{(i)},x_{2}^{(i)})=y(x_{1}^{(i)},x_{2}^{(i)})logp(x_{1}^{(i)},x_{2}^{(i)})+(1-y(x_{1}^{(i)},x_{2}^{(i)})log(1-p(x_{1}^{(i)},x_{2}^{(i)}))+{\lambda^T}|w|^2) ζ(x