半监督学习

半监督学习
【假设】

要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。
假设一:" 聚类假设" (duster assumption) ,即假设数据存在簇结构,同一个簇的样本属于同一个类别。

假设二:“流形假设” (manifold assumption) , 即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值"邻近" 程度常用"相似"程度来刻画,因此,流形假设可看作聚类假设的推广, 但流形假设对输出值没有限制,因此比聚类假设的适用范围更广,可用于更多类型的学习任务。
事实上,无论聚类假设还是流形假设,其本质都是"相似的样本拥有相似的输出"这个基本假设。
【类型】
半监督学习可进一步划分为纯半监督学习和直推学习。前者假定训练数据中的未标记样本并非待预测的数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,换言之,纯半监督学习是基于"开放世界"假设, 希望学得模型能适用于训练过程中未观察到的数据;而直推学习是基于"封闭世界"假设,仅试图对学习过程中观察到的未标记数据进行预测。
换言之,假设有如下的数据集,其中训练集为XL+XU,测试集为Xtest,标记样本数目为L,未标记样本数目为U,L<<U:
*
标记样本(XL,YL)={(x1:L,y1:L)}  
*
未标记样本XU={xL+1:N},训练时可用
*
测试样本Xtest={xN+1:},只有在测试时才可以看到

纯半监督学习可以对测试样本Xtest进行预测,直推学习仅仅可以对未标记样本XU进行标记,模型不具备对测试样本Xtest进行泛化的能力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值