【少样本学习】文献阅读整理

最新推荐文章于 2023-12-30 16:31:30 发布

酸菜一汤

最新推荐文章于 2023-12-30 16:31:30 发布

阅读量211

点赞数

分类专栏： CV 文章标签：学习人工智能机器学习

本文链接：https://blog.csdn.net/qq_42295103/article/details/127423947

版权

CV 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近了解学习了一些少样本学习相关的内容，参考了各路大佬的博客，自己也读了一些论文，简单整理发布一下。

当我们试图采用传统机器学习方法训练一个agent时往往会使用大量的数据进行训练，而在大量训练之后的效果有时也不理想（当然这里不包括那些super大模型，毕竟我们自己也不太可能训得动），到这里matching net的作者就说了，我们教小孩子的时候并不需要像训练一个模型一样让他看大量的数据啊，用幼儿识字卡片看一遍这个图，实际中长得差不多的都能认出来了。所以我们是不是也可以通过这种方式去训练一个模型出来呢？

少样本图像分类

这部分主要读的论文是Matching Net【1】，这部分简单看了一下概念，了解了一下究竟是如何定义少样本图像分类这个问题，以及它大致的学习模式是什么样的。

我们通常研究的深度学习模型基本都是通过数据驱动完成的，也就是说模型需要见过大量的数据才能在某个任务上具有良好的表现。但是我们反思人的学习过程，作者举了个例子，一个小孩可以从一张长颈鹿的图片（早教读本）把“长颈鹿”这个概念泛化到自己的生活中。因此从人类的这种学习模式延伸出了“one-shot learning”这个概念。

matching net的做法也与其相似，把读本（带有标签的数据）抽象成支持集（support set），要进行分类的图片（没有标签的数据）抽象抽象成查询集（query），那么模型需要学习的能力就是判断这个query属于support set中的哪一个类别。如此一来，模型学习的就不再是根据一张图片的特征判断这张图像属于哪一类的能力，而是根据给定图片和support vector中的图片共同决策这张图片属于哪一类。

文章给的这张图还是蛮清晰的，左侧带标签的图就是support set，网络g抽取support set中图像的特征，下面那张图片就是待分类的图，也就是query，f对query进行特征抽取后和support set中的特征进行计算后输出最有可能的那个类别。

少样本图像生成

少样本图像生成的相关工作，大致读了两类，一类是和matching net对标的matching gan和它的一系列改进版本，另一类是跨域进行图像合成的few-shot adaption系列文章。

这两类图像生成模型在做的是两件事，第一类是针对有限的数据集，通过生成网络去生成一些新的，数据集内不存在的数据。这里比较代表的有F2GAN【2】，看下面的图其实就是输入一组图像，基于特征融合得到一个新的属于同一类别的图像（就是说数据集里没有出现过的），这个方法可以用于数据增广，早年在连续学习相关的论文中也读到过用这种方式进行防遗忘的方法。

第二类本质上似乎是风格迁移的问题，大概可以理解为目标风格的图像数量特别少的时候该如何实现具备多样性的风格迁移。这边给了一个例子【3】，左边第一行的图片是源域图片，论文用的是FFHQ数据集，先用一个GAN学一个可以生成人脸的模型，这是后如果使用右边的10张风格化图像进行微调，就会出现迁移后图像过拟合的想现象，也就是不具备多样性，基本上风格迁移后的图像长得和右边10张图大差不差。

这时候作者想了一个办法，先固定住已经学好的这个GAN，每个样本都和彼此构成一组唯一的距离，这样，在特征空间上，让它们保持这个相对距离，这样生成出来的风格化图像就会被迫产生差异，而有趣的是这样生成出来的图像竟然和源图也保留了一种特征的对应关系。相关的损失函数我贴到了对应的位置，其实就是GANLoss，差在变量上。

参考文献

【1】Matching Networks for One Shot Learning，Oriol Vinyals et al.（NIPS 2016）

【2】F2GAN: Fusing-and-Filling GAN for Few-shot Image Generation. Yan Hong el al. (ACM MM 2020)

【3】Few-shot Image Generation via Cross-domain Correspondence. Utkarsh Ojha et al. (CVPR 2021)

酸菜一汤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【少样本学习】文献阅读整理

最近了解学习了一些少样本学习相关的内容，参考了各路大佬的博客，自己也读了一些论文，简单整理发布一下。当我们试图采用传统机器学习方法训练一个agent时往往会使用大量的数据进行训练，而在大量训练之后的效果有时也不理想（当然这里不包括那些super大模型，毕竟我们自己也不太可能训得动），到这里matching net的作者就说了，我们教小孩子的时候并不需要像训练一个模型一样让他看大量的数据啊，用幼儿识字卡片看一遍这个图，实际中长得差不多的都能认出来了。所以我们是不是也可以通过这种方式去训练一个模型出来呢？
复制链接

扫一扫

专栏目录