半监督SVM

一.半监督学习简介

    • 什么是半监督学习

“半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。

    • 未标记样本

Dl为有标记样本,Du为无标记样本,

且l<<u。

通过观察标记样本从而判断未标记样本是哪一种

    • 半监督学习优点

让学习器不依赖外界交互,自动地利用未标记样本配合标记样本来提升学习性能,就是半监督学习。

若使用传统监督学习技术,则仅有Dl能用于构建模型,Du所包含的信息被浪费了;另一方面,若Dl较小,则由于训练样本不足,学得模型的泛化能力往往不佳,因此需要利用无标签数据提高监督学习的性能。

    • 应用场景

做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。这时便使用半监督学习。

在进行计算机辅助医学影像分析时,可以从医院获得大量医学影像,但是希望医生把影像中的病灶全部标识出来时不现实的,大部分都是无标记样本。

    • 半监督学习和直推学习

半监督学习可进一步划分为纯半监督学习和直推学习

纯半监督学习假定训练数据中的未标记样本并非待预测的数据。

直推学习假定学习过程中所考虑的未标记样本恰是待预测数据。

二.半监督SVM

    • S3VM简介

半监督支持向量机(Semi-Supervised Support Vector Machine,简称S3VM)是支持向量机在半监督学习上的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面,如图所示,明显S3VM划分超平面周围样本较少,也就是“数据低密度区域”,即“低密度分隔”。半监督支持向量机中最著名的是TSVM(Transductive Support VectorMachine)。

    • TSVM穷举法

TSVM试图考虑对未标记样本进行各种可能的标记指派(label assignment),即尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个在所有样本(包括有标记和标记指派的未标记样本)上间隔最大化的划分超平面。一旦划分超平面得以确定,未标记样本的最终标记指派就是其预测结果。

缺点:迭代次数较多,需要2的u次方次,仅当样本标记很少时才有可能直接求解,因此需要考虑更高效的优化策略。

    • TSVM局部搜索

3.1解释

3.2流程图

3.3交换过程

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值