1. 半监督学习 semi-supervised learning 3
3.1 Distant Domain Transfer Learning远域迁移学习 8
3.2 Multi-task learning transfer learning 12
3.2.6为什么把多个相关的任务放在一起学习,可以提高学习的效果? 15
3.2.8多任务学习中的相关关系(task relationship) 16
3.2.9深度学习中两种多任务学习模式:隐层参数的硬共享与软共享。 16
3.3.1样本迁移(Instance based TL) 18
3.3.2特征迁移(Feature based TL) 19
4.1知识图谱(Knowledge Graph) 主要目的是在海量网络数据中以更直观的方式把知识展现给用户; 20
4.1.7知识图谱的应用: 商业搜索引擎的应用:如百度、搜狗等,国外谷歌。 21
4.2 Multi-Label Zero-Shot Learning with Structured Knowledge Graphs论文笔记 21
4.3 incorporating symbolic domain knowledge 21
小样本学习可分为四种基本技术:semi-supervised learning、Active learning、Transfer learning、Incorporating knowledge。针对于不同的learning tasks可能结合使用不同的技术。
1. 半监督学习 semi-supervised learning
1.1 基本概念
在许多ML的实际应用中,很容易找到海量的无类标签的样例,但需要使用特殊设备或经过昂贵且用时非常长的实验过程进行人工标记才能得到有类标签的样本,由此产生了极少量的有类标签的样本和过剩的无类标签的样例。因此,人们尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习,期望能对学习性能起到改进的作用,由此产生了SSL,如图所示。SSL避免了数据和资源的浪费,同时解决了SL的 模型泛化能力不强和UL的模型不精确等问题。
半监督学习可分为:纯半监督学习与直推学习。前者假定:训练数据集中的未标记数据集并非待预测数据集。直推学习假定学习过程中的未标记数据集就是待预测的数据。直推学习仅仅对未标记样本进行预测标记。如下图:
半监督学习的三个假设:
半监督学习依赖于模型的假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。三个假设如下:
(1)平滑假设(Smoothness Assumption)
位于稠密数据区域的两个距离很近的样例的类标签相似,也就是说,当两个样例被稠密数据区域中的边连接时,它们在很大的概率下有相同的类标签;相反地,当两个样例被稀疏数据区域分开时,它们的类标签趋于不同.
(2)聚类假设(Cluster Assumption)
当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签.这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption),即分类决策边界应该穿过稀疏数据区域,而避免将稠密数 据区域的样例分到决策边界两侧。
(3)流形假设(Manifold Assumption)
将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。
1.2 半监督学习的应用
半监督学习在许多领域都有重要应用。例如:遥感图像分类与图像显著性检测。遥感图像分类主要任务是根据遥感区域的不同地物覆盖类型对多光谱卫星图像中的像素进行分类,从而可以通过卫星图像研究地物覆盖类型的组成和变迁。在实际应用中,因为获取遥感标记数据需要对遥感地区进行实地考察,同时需要专业人员对遥感图像进行解译,因此标记样本的获取成本较高.另外,因为每个类的标记样本很少,所以这些标记样本也无法完全体现出数据的类内多样化和变化范围.这些都给传统的监督学习带来了很大的障碍。如下图,标记样本很有限的情况下,半监督学习分类的结果精度要远好于传统的监督学习。
1.3 半监督学习方法结构
SSL按照统计学习理论的角度包括直推 (Transductive )SSL和归纳(Inductive)SSL(纯半监督学习)两类模式。直推 SSL只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。从不同的学习场景看,SSL可分为4大类:
(1)半监督分类 (Semi-Supervised Classification)
在无类标签的样例的帮助下训练有类标 签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签yi取有限离散值yi∈{c1,c2,···,cc}, cj∈N。
(2)半监督回归(Semi-Supervised Regression)
在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出yi 取连续值 yi∈R。
(3)半监督