前言
本文是第一次组会后对半监督学习以及度量学习的一些理解。
一、半监督学习(Semi-supervised learning)
半监督学习是:在一个数据集中,部分数据有标签,部分数据没有标签,通过利用少量被标记的数据来引导大量未被标记的数据对其打伪标签;已标记数据与已打伪标签数据相结合,介于监督学习与无监督学习之间的独特算法。
半监督学习主要有两个动作:
(1)打伪标签:将未被标记的数据打上伪标签
(2)筛选哪些数据来打伪标签:通过筛选与已标记样本相似度较高(分布距离较近)的数据
利用已有标签的数据来训练自己,建立一个初级模型;再通过这个初级模型对筛选出的数据打伪标签。
二、度量学习(Metric Learning)
在机器学习中,很多时候需要计算数据点之间的距离,传统的做法是根据已有的经验知识选择一种标准的度量计算公式,如:欧氏距离、曼哈顿距离,等等;而度量学习则通过训练和学习,减小或限制同类样本之间的距离,同时增大不同类别样本之间的距离,重新建维,用一个新的式子来计算数据点的距离。
基于深度学习的度量学习方法大都由两个部分组成:
(1)特征提取
(2)距离度量
度量学习也叫作相似度学习,当数据之间的相似度较高,放大数据之间的差异性可以有效增大结果之间的收敛性,如下图所示:
在坐标系A中可以看出图形之间的分布较聚集,通过增加y坐标的权重,由坐标系A----》坐标系B,很明显各个图形之间的距离被放大,其差异性也被放大。