[学习日志]深度学习-李宏毅 半监督学习

定义

在这里插入图片描述
数据集中有一部分已标注数据,但绝大部分是未标注数据。
直推式学习:未标注数据就是测试数据
生成式学习:未标注数据不是测试数据

为什么做半监督

因为很多情况下,是无法获取大量已标注数据的

半监督学习的启发模型

在这里插入图片描述
主要的思想就是:既然不知道某一未标注数据到底是什么,那么就用概率替代标签
在这里插入图片描述
对于未知数据要如何定义极大似然函数?见上图

自训练模型

在这里插入图片描述
训练的过程:
1.根据已标注数据,训练出一个模型
2.利用此模型给未标注数据分类(pseudo-label 伪标签)
3.然后把一部分的伪标签数据看作已标注数据,再进行一次训练,重复

区别在于如何选第三步中的伪标签
而且很需要说明的一点,就是在回归问题中这个策略是没有效果的

软硬区别

在这里插入图片描述
软标签是没有意义的,就类似回归里面没意义

Low-density Separation 低密度分离

在这里插入图片描述
这个假设就是,类别间是泾渭分明的(使用硬标签),且在分界线附近的数据密度低

信息熵正则化

在这里插入图片描述

Smoothness Assumption

分布式不均匀的,有地方密集,有地方稀疏
在一个高密度聚集的分布中,相似的输入,会有相同的输出
简单说就是:近朱者赤近墨者黑(这个假设还是比较符合大多数情况的)
类似聚类的思想
在这里插入图片描述

图方法

在这里插入图片描述
可以尝试建立一个类似这个的图,图中相互链接着的点认为是同类,不链接的点就认为是不同类,和点之间的举例就没有关系了。
那么怎么建立这个图呢?(比如根据数据的实际意义-网站跳转关系等,还有KNN)
在这里插入图片描述


图的Smoothness正则化

用来评估当前的标签是否恰当 类似损失函数 所以亦可以算是一种正则化
在这里插入图片描述
图的顺滑度Smoothness
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值