伪标签半监督学习


正文共830张图,3张图,预计阅读时间5分钟。

github : https://github.com/sladesha


之前在训练YoutubeNet和DCN的时候,我都发现平台用户中基础用户的信息数据缺失率特别高,比如性别一栏准确填写的不足60%,所以我一直想调研一下有没有什么更好的填充方法,要保证既不能太复杂太耗时,也要有足够好的效果。


其实这个问题就是一个缺失值填充,之前的文章中也写过很多办法,常规的也总结过:


  • 均值、众数填充
    最简单的填充,效果也惨不忍睹

  • 根据没有缺失的数据线性回归填充
    填充的好会造成共线性错误,填充的不好就没价值,很矛盾

  • 剔除
    丢失信息量

  • 设置哑变量
    会造成数据分布有偏

  • smote
    连续值有效,离散值就无法实施了


我在Google上看imbalance问题的时候,偶然看到了这个视频教程,上面讲了图像的缺失处理,提到了伪标签处理的半监督学习方式。我就在国内的论坛上找了下,阿里云技术论坛也同样注意到了这个问题,但是只给出了如下的粗糙的构思图:

640?wx_fmt=png


有一份整理了的流程图,具体执行步骤总结,和大家一起看一下:


640?wx_fmt=png

  • 将有标签部分数据分为两份:train_set&validation_set,并训练出最优的model1

  • 用model1对未知标签数据(test_set)进行预测,给出伪标签结果pseudo-labeled

  • 将train_set中抽取一部分做新的validation_set,把剩余部分与pseudo-labeled部分融合作为新的train_set,训练出最优的model2

  • 再用model2对未知标签数据(test_set)进行预测,得到最终的final result label


我利用了已知标签的数据对这个方法进行测试,用了最简单的mixed logistic regression模型作为Basic Model,得到结果如下:


640?wx_fmt=png


利用伪标签半监督的方式,同样的mixed logistic regression模型AUC值会提高0.1pp左右,效果还不错,而且实施并不复杂,大家可以在缺失值处理或者分类问题中应用尝试一下。


原文链接:https://www.jianshu.com/p/fd4cae0d0e85


查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org


请关注人工智能LeadAI公众号,查看更多专业文章

640?wx_fmt=jpeg

大家都在看

640.png?

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值