【平价数据】One Shot Learning

最新推荐文章于 2024-06-12 20:41:37 发布

shenxiaolu1984

最新推荐文章于 2024-06-12 20:41:37 发布

阅读量1.8w

点赞数 11

分类专栏：论文解读文章标签：深度学习算法 DeepMind

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shenxiaolu1984/article/details/53129937

版权

Vinyals, Oriol, et al. “Matching Networks for One Shot Learning.” arXiv preprint arXiv:1606.04080 (2016).

简介

问题

DeepMind团队的这篇文章解决小样本学习问题：对于训练过程中从未见过的新类，只借助每类少数几个标定样本，不改变已经训练好的模型，能够对测试样本进行分类。

举例：使用大规模人脸数据库训练好的人脸模型，应用于小规模人脸识别。每个使用者只提供较少几张注册图像。

亮点

Li Feifei老师的高徒，在ImageNet中为#科学献身#的人肉参照者，现供职于OpenAI的Andrej Karpathy对该论文给出了“可不咋地！”的崇高评价，并撰写了读文笔记。本文较大程度参考了该笔记。

本文创新之处有二：

模型设计中，借鉴了当下流行的注意力LSTM，考虑了整个参考集合的贡献；
训练过程中，尽量模拟测试流程，使用小样本构造minibatch。

模型

问题建模

给出的参考集中有 $k$ 个样本： $x_i, y_i)_{i=1:k}$ 。注意 $k$ 往往很小，类别的数量也不多。
对于测试样本 $\hat x$ ，预测其标定 $\hat y$ 。

注意力模型

本文使用参考集标定的加权和作为预测：
$\hat y = \sum_{i=1}^ka(\hat x, x_i)y_i$

充当权重的注意力函数 $a$ 是softmax形式，用其他所有参考集样本归一化：
$a(\hat x, x_i)=\frac{\exp [C(f(\hat x),g(x_i))]}{\sum_{j=1}^k \exp [C(f(\hat x),g(x_j))]}$

$C$ 是余弦距离，用于比较测试样本 $\hat x$ 和参考样本 $x_i$ 的相似度。

$f, g$ 分别是测试样本和参考样本的特征提取函数（论文里称为embedding），使用深度网络实现，以下逐一说明。

参考样本特征g

首先使用一个简单的网络（例如VGG或者Inception）提取单个样本的原始特征： $g'(x_i)$ 。

每个样本

最低0.47元/天解锁文章

关注

11
点赞
踩
47

收藏

觉得还不错? 一键收藏
11
评论
【平价数据】One Shot Learning

简介DeepMind解决小样本学习问题的文章：Matching Networks for One Shot Learning
复制链接

扫一扫

专栏目录

评论 11

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。