小样本学习的悖论

最新推荐文章于 2023-06-21 18:28:16 发布

shinian1987

最新推荐文章于 2023-06-21 18:28:16 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/matrix_space/article/details/102827989

版权

机器学习专栏收录该内容

113 篇文章 141 订阅

订阅专栏

小样本学习的悖论

引言

这两年，学术界开始兴起了一种 “小样本学习” 的技术，小样本学习的本意是想模仿人类的学习过程，研究者认为人类的学习，从来都不是通过大量的数据死记硬背来实现的，机器想要模仿的人类视觉的能力，比如识别能力，似乎是人类与生俱来的能力，可以轻易的区分开不同种类的东西，不管这东西有什么光照，尺度，形状的变化，或者复杂背景的干扰，人类视觉的识别系统，比起机器学习的模型，是在的鲁棒太多。而且，人类的这种识别能力，也不是通过大量数据学习来的，所以有人想着，能不能让机器也能实现小样本学习。

这个方向的论文，我也看过一些，不得不说，这类的研究都有些自娱自乐的感觉，还是应证了那句话，在机器学习界，没有免费的午餐，之前探讨过，目前的机器学习，主要分为规则学派和统计学派，而当今 CV 界，还是搞统计学的居多，现在大家已经逐渐达成了某种共识，一个模型的性能，很大程度上取决于数据的规模和数据的质量，为了达成这个目标，数据都是大规模地去收集。

小样本学习，反其道而行，本意是想以小见大，可惜学习方法还是统计学那一套，这就注定了小样本学习是个没有什么实用性质的技术。而且，很多 paper，仅仅是把常规的学习方式，稍作修改，用到了小样本学习身上，连基本的原理都没有改变，又怎么能指望小样本真的能达到好的效果呢。

在讨论小样本学习为什么不靠谱之前，我们先来看看目前的小样本学习基本都是一些什么方法吧。

特征迁移

特征迁移，大概是一个放之四海而皆可的一种方法，特征迁移，也有人认为是迁移学习的一种，一个模型先在大量的数据上训练过，具备了一定的特征表达能力，然后在新的数据集上，做一遍特征提取，用少量的样本训练一个线性分类模型，这个分类模型，用来预测，这个看起来就是一个标准的特征提取，训练模型，做预测的流程，只是以前的特征提取是基于手工设计的，比如 HOG, LBP, SIFT 什么的，现在换成了一个网络，这和小样本学习似乎也没有什么关系。这个方法，在很多小样本学习里，其实效果反而不错，比起那些绞尽脑汁想出的古怪方法稳定，高效。

度量匹配

度量学习，也是一个比较通用的一种方法，上面说的特征迁移，是训练网络做特征提取器，那度量学习，就是训练网络做度量，最后尽可能让同类的特征比较靠近，不同的特征隔开，这个网络，最后也是用来做特征提取，不过不再有分类器了，而是直接用一个特征原型来做分类，每个类别，都有一个特征原型，新来的数据，每个类别少量的几个样本，也能构成一个特征原型，一般都是直接求平均，这样做分类的时候，就是测试图片的特征和每个类别的特征原型做比较，这就是度量匹配的基本原理，这个方法和上面的特征迁移类似，也是把网络当做一个特征表达器，寻找类别的原型，还是没有看出和小样本学习有啥关系。

数据增广

这个更奇怪，虽然说是小样本学习，最后提出了一个数据增广的方法来解决小样本学习问题，这类方法的出发点是，既然我能拿到的样本很少，那我就想办法增广样本，好了，既然是增广，那就有各种想法了，最常见的一种是用 GAN，先用大量的数据训练一个 GAN，然后再用 GAN 来生成样本进行扩充，这种方法，我总觉得哪里不对。还有一种是对图片本身的各种操作，或者不同图片之间的各种组合，反正就是各种尝试，看哪种组合方式有效，就用哪种。数据增广这种方式，也是比较有效的一种。

其他

除了上面几种主流方法之外，还有其它一些比较清奇的，比如用 meta learning 的方式来训练网络，然后让网络可以适应小样本的学习方式，还有利用特征融合的，比如利用语义特征，来做小样本学习的。

小样本学习与信号采样

说了这么多，发现这些方法除了数据集换成小样本之外，其他的和常规的机器学习方法似乎没有什么不同，而且所有的小样本学习的方法，在数据量稍微多一点的时候，就和上面最简单的特征迁移的方法效果基本一致，甚至还不如简单的特征迁移方法。

可能还是我们太年轻，以为小样本学习真的能够解决数据量不足的问题，可实际上，却只是一种自娱自乐，在实际使用的时候，还是得依靠大数据。

小样本学习为什么没有用，我想从信号或者信息论的角度来理解比较容易，我们前面讲过，任何一个数据集都存在一个分布，虽然这个分布，我们没有办法准确的给出定义，但我们知道这个分布一定是存在的，我们不妨假设这个分布为 $p (x)$ ，那么数据集里的每一个样本其实类似对这个分布的一种采样，数据集的大小，就类似采样密度，数据集越大，意味着采样率越高，反之，就是采样率越小，小样本学习，就类似一个低采样。

而我们统计机器学习，其实就是利用采样的数据来对整体分布做拟合，学过信号处理的都知道，要将一个信号重建，采样率是要有一定保证的，采样率越高，信号重建的越好，如果采样率太低，是没有办法估计一个完整信号的。所以，我们用小样本来学习，就类似用一个低采样率的采样信号来重建一个完整的信号，这明显是违背采样定理或者信息论的。

所以说，建立在统计学上的机器学习，是和信号处理，信息论紧密相关的，希望利用小样本学习来模拟人类的学习能力，需要换一套理论基础才行，如果还是基于现有的统计学方式，那小样本学习注定是一个不可达成的悖论。

shinian1987

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
小样本学习的悖论

小样本学习的悖论引言这两年，学术界开始兴起了一种 “小样本学习” 的技术，小样本学习的本意是想模仿人类的学习过程，研究者认为人类的学习，从来都不是通过大量的数据死记硬背来实现的，机器想要模仿的人类视觉的能力，比如识别能力，似乎是人类与生俱来的能力，可以轻易的区分开不同种类的东西，不管这东西有什么光照，尺度，形状的变化，或者复杂背景的干扰，人类视觉的识别系统，比起机器学习的模型，是在的鲁棒太多。...
复制链接

扫一扫