主流深度学习模型以大量监督数据为驱动,导致模型泛化能力依赖于监督数据的数量和质量。相比之下,人类拥有利用过去所学知识快速学习新概念的能力。因此,研究者们希望构建一种新的训练方法,使模型仅在少量训练样本的情况下学习,并具备良好的泛化能力。
目标及核心问题:仅使用少量标签数据训练模型,使之具有良好的泛化能力。
椭圆代表模型,最优解不一定在模型内,表示为通过数据训练得到的经验风险,当数据足够多时其趋于,小样本就如右图,两者之间的距离就是用经验风险替代模型期望风险带来的误差。
解决问题的三个角度:
1)data:数据增强,增加数据;
使用更多的数据作为先验来减少误差,两种方法:①将现有数据集进行变换,改善其分布,创造一些伪标签的数据(人工数据),比如计算机视觉里面进行训练前一般都会进行数据增强,将图片旋转一下位置或裁剪等,这些方法属于手动方法;还有一种方法是学习一种变换,将目前的数据集变换到另一个分布里,然后用变换后的增强数据进行训练;②是不用原来的数据集,而是借鉴其它数据集,比如一些没有标签的数据集或者相似的数据集。通过训练数据集训练一个小的模型对无标签数据的标签进行预测,然后利用原训练数据和伪标签数据组合成新的数据集(有噪声的);对相似数据集进行采样,加权得到新的数据集。
2)Model:缩小搜索范围,从另一个起点出发,限制假设空间;
多任务学习:数据集里的其它任务共享参数,如果参数在多个任务上都表现得很好的话,该参数就被限制住了
硬参数共享:多个任务相互限制和辅助,软参数共享:参数相似
嵌入学习:把相似的任务放到一起,不相似的任务分开
嵌入学习(情景训练法)主要用在元学习方法上,目前主要用这种方法。
额外的记忆:检索记忆和存储记忆交互
生成模型:差不多的意思,主要是限制其分布,过于复杂,不稳定
3)Algorithm:使用更高效的算法,很好的搜索策略,不需要太多样本
正则微调:
组合参数:
把与目前任务相似的之前任务参数组合在一起,减缓搜索次数和样本数量
新参数微调:
用少量样本训练新分类器的少量参数,
微调元模型参数(通用初始化参数)一个经典的优化方法
适用于所有任务的参数 ,在遇到新任务时,只需要少量的样本来更新
元优化器