semi-supervisied learning

unlabel数据为什么有用?
可以影响数据的分布
存在一些假设
有没有用就看假设是否合理

在这里插入图片描述semi-supervised learning for generative model:

在这里插入图片描述
low-density separation assumption:
数据分布最少的地方就是做好的boundary

在这里插入图片描述
与生成模型的比较,label非黑即白,不以概率表示;训练神经网络,要使用hard类型的标注,更可能为类1,则标注为类1。
在这里插入图片描述
上面的方法,通过概率直接分类有点太粗暴了,更好的方法是根据熵来做,熵值越小,样本分布越集中。求得一个样本是不同类的概率值后计算熵。损失函数可改写为有label的和无label的,如下所示。具体来说,计算出样本的entropy,改写损失函数,以此重新训练神经网络。如下图所示。
在这里插入图片描述
smoothness assumption:
通过分布概率判别是否属于同一类
在这里插入图片描述smoothness应用场景:
利用unlabel data 来构造可能的过渡
在这里插入图片描述
具体的做法:提出了graph -based 方法来表达smoothness,如何表达两个数据点是否相似呢?构建图,两个点可达的则是相似的。
在这里插入图片描述如何构建graph?计算data point间的相似度,如下述公式;利用knn或是e-neighborhood根据计算的相似度构建图。
在这里插入图片描述
建好graph后,根据label data ,与label data相连接的data point是同一类,相似度会依次传递下去。但是有一个问题!如果数据量不足的话,无法连接成希望的图,效果很差!如下图所示。
在这里插入图片描述为图的边添加weight后,定义整个图的smoothness计算公式(y是预测的label),得到smoothness后,将其作为正则项加入到损失函数中,重新训练神经网络,整个过程如下两个图所示:
在这里插入图片描述
在这里插入图片描述smooth可以不仅仅是在output layer上,可以在任何层。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值