半监督学习提出的背景
数据是机器学习的基础。巧妇难为无米之炊,再牛x的机器学习算法,脱离了数据就是空中楼阁。
根据使用的数据样本是否具有标签,可大致将传统的机器学习方法分为监督学习方法和无监督学习方法。
其中,无监督学习方法使用的训练样本没有标签;监督学习方法使用的训练样本带有明确的标签。
监督学习:训练样本集不仅包含样本,还包含这些样本对应的标签,即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射,使其能够预测未知样本的标签。监督学习是机器学习中最成熟的学习方法,代表性的算法包括神经网络、支持向量机(SVM)等。
无监督学习:只能利用训练样本的数据分布或样本间的关系将样本划分到不同的聚类簇或给出样本对应的低维结构。因此,无监督学习常被用于对样本进行聚类或降维,典型的算法包括尺均值聚类和主成分分析等。
在许多实际问题中,有标签样本和无标签样本往往同时存在,且无标签样本较多,而有标签样本则相对较少。虽然充足的有标签样本能够有效提升学习性能,但是获取样本标签往往是非常困难的,因为标记样本可能需要专家知识、特殊的设备以及大量的时间。相比于有标签样本,大量的无标签