一.半监督学习简介
- 什么是半监督学习
“半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
- 未标记样本
Dl为有标记样本,Du为无标记样本,
且l<<u。
通过观察标记样本从而判断未标记样本是哪一种
- 半监督学习优点
让学习器不依赖外界交互,自动地利用未标记样本配合标记样本来提升学习性能,就是半监督学习。
若使用传统监督学习技术,则仅有Dl能用于构建模型,Du所包含的信息被浪费了;另一方面,若Dl较小,则由于训练样本不足,学得模型的泛化能力往往不佳,因此需要利用无标签数据提高监督学习的性能。
- 应用场景
做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。这时便使用半监督学习。
在进行计算机辅助医学影像分析时,可以从医院获得大量医学影像,但是希望医生把影像中的病灶全部标识出来时不现实的,大部分都是无标记样本。
- 半监督学习和直推学习
半监督学习可进一步划分为纯半监督学习和直推学习
纯半监督学习假定训练数据中的未标记样本并非待预测的数据。
直推学习假定学习过程中所考虑的未标记样本恰是待预测数据。
二.半监督SVM
- S3VM简介
半监督支持向量机(Semi-Supervised Support Vector Machine,简称S3VM)是支持向量机在半监督学习上的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面,如图所示,明显S3VM划分超平面周围样本较少,也就是“数据低密度区域”,即“低密度分隔”。半监督支持向量机中最著名的是TSVM(Transductive Support VectorMachine)。
- TSVM穷举法
TSVM试图考虑对未标记样本进行各种可能的标记指派(label assignment),即尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个在所有样本(包括有标记和标记指派的未标记样本)上间隔最大化的划分超平面。一旦划分超平面得以确定,未标记样本的最终标记指派就是其预测结果。
缺点:迭代次数较多,需要2的u次方次,仅当样本标记很少时才有可能直接求解,因此需要考虑更高效的优化策略。
- TSVM局部搜索