Few-shot Learning survey-详细易懂-小样本综述

本文详细介绍了小样本学习的四种核心技术:半监督学习、主动学习、迁移学习和知识融合。半监督学习通过利用大量无标签数据改进学习性能,分为直推和归纳两种模式。主动学习允许算法选择最需要标注的数据,以提高学习效率。迁移学习通过在源域和目标域之间找到相似性进行知识转移,其中多任务学习是重要方法,通过共享表示提升泛化能力。知识融合则利用知识图谱来组织和理解海量数据。这些技术在各个领域如遥感图像分类、医疗图像处理、自然语言处理等有广泛应用。
摘要由CSDN通过智能技术生成

 

1. 半监督学习 semi-supervised learning  3

1.1 基本概念     3

1.2 半监督学习的应用     4

1.3 半监督学习方法结构     5

1.4 半监督深度学习     6

2. 主动学习(Active Learning)     7

2.1 基本概念     7

2.2 应用领域以及场景     7

2.3 研究现状     7

2.4 相关论文     8

3.迁移学习     8

3.1 Distant Domain Transfer Learning远域迁移学习     8

3.1.1样本自动选择     9

3.1.2合并边信息     10

3.2 Multi-task learning transfer learning  12

3.2.1简介:     12

3.2.3目前多任务学习方法大致可以总结为两类     13

3.2.4 满足以下三点时多任务学习是有意义的     13

3.2.5单任务学习VS多任务学习     14

3.2.6为什么把多个相关的任务放在一起学习,可以提高学习的效果?     15

3.2.7相关(relate)定义     15

3.2.8多任务学习中的相关关系(task relationship)     16

3.2.9深度学习中两种多任务学习模式:隐层参数的硬共享与软共享。     16

3.2.10多任务学习与其他学习算法之间的关系     16

3.2.11多任务学习应用概述     17

3.3 Domain Adaptation  18

3.3.1样本迁移(Instance based TL)     18

3.3.2特征迁移(Feature based TL)     19

3.3.3模型自适应:     19

4.Incorporating Knowledge  20

4.1知识图谱(Knowledge Graph) 主要目的是在海量网络数据中以更直观的方式把知识展现给用户;     20

4.1.1知识获取:     20

4.1.2知识融合:     20

4.1.3知识存储:     21

4.1.4查询式语意理解:     21

4.1.5知识检索:     21

4.1.6可视化展现:     21

4.1.7知识图谱的应用:   商业搜索引擎的应用:如百度、搜狗等,国外谷歌。     21

4.2 Multi-Label Zero-Shot Learning with Structured Knowledge Graphs论文笔记     21

4.2.1概述:     21

4.3  incorporating symbolic domain knowledge  21

 

小样本学习可分为四种基本技术:semi-supervised learning、Active learning、Transfer learning、Incorporating knowledge。针对于不同的learning tasks可能结合使用不同的技术。

1. 半监督学习 semi-supervised learning

1.1 基本概念

      在许多ML的实际应用中,很容易找到海量的无类标签的样例,但需要使用特殊设备或经过昂贵且用时非常长的实验过程进行人工标记才能得到有类标签的样本,由此产生了极少量的有类标签的样本和过剩的无类标签的样例。因此,人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了SSL,如图所示。SSL避免了数据和资源的浪费,同时解决了SL的 模型泛化能力不强和UL的模型不精确等问题。

 

      半监督学习可分为:纯半监督学习与直推学习。前者假定:训练数据集中的未标记数据集并非待预测数据集。直推学习假定学习过程中的未标记数据集就是待预测的数据。直推学习仅仅对未标记样本进行预测标记。如下图:

 

半监督学习的三个假设:

      半监督学习依赖于模型的假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。三个假设如下:

1)平滑假设(Smoothness Assumption

      位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同. 

2)聚类假设(Cluster Assumption

      当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签.这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数 据区域的样例分到决策边界两侧。

3)流形假设(Manifold Assumption

      将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。

1.2 半监督学习的应用

      半监督学习在许多领域都有重要应用。例如:遥感图像分类与图像显著性检测。遥感图像分类主要任务是根据遥感区域的不同地物覆盖类型对多光谱卫星图像中的像素进行分类,从而可以通过卫星图像研究地物覆盖类型的组成和变迁。在实际应用中,因为获取遥感标记数据需要对遥感地区进行实地考察,同时需要专业人员对遥感图像进行解译,因此标记样本的获取成本较高.另外,因为每个类的标记样本很少,所以这些标记样本也无法完全体现出数据的类内多样化和变化范围.这些都给传统的监督学习带来了很大的障碍。如下图,标记样本很有限的情况下,半监督学习分类的结果精度要远好于传统的监督学习。

 

1.3 半监督学习方法结构

      SSL按照统计学习理论的角度包括直推 Transductive SSL和归纳(InductiveSSL(纯半监督学习)两类模式。直推 SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。从不同的学习场景看,SSL可分为4大类: 

1)半监督分类 Semi-Supervised Classification

      在无类标签的样例的帮助下训练有类标 签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签yi取有限离散值yi{c1,c2,···,cc}, cjN

2)半监督回归(Semi-Supervised Regression

    在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出yi 取连续值 yi∈R。 

3)半监督

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值