伪标签半监督学习

最新推荐文章于 2024-08-09 23:39:26 发布

LeadAI学院

最新推荐文章于 2024-08-09 23:39:26 发布

阅读量9.3k

点赞数 2

正文共830张图，3张图，预计阅读时间5分钟。

github : https://github.com/sladesha

之前在训练YoutubeNet和DCN的时候，我都发现平台用户中基础用户的信息数据缺失率特别高，比如性别一栏准确填写的不足60%，所以我一直想调研一下有没有什么更好的填充方法，要保证既不能太复杂太耗时，也要有足够好的效果。

其实这个问题就是一个缺失值填充，之前的文章中也写过很多办法，常规的也总结过：

均值、众数填充
最简单的填充，效果也惨不忍睹
根据没有缺失的数据线性回归填充
填充的好会造成共线性错误，填充的不好就没价值，很矛盾
剔除
丢失信息量
设置哑变量
会造成数据分布有偏
smote
连续值有效，离散值就无法实施了

我在Google上看imbalance问题的时候，偶然看到了这个视频教程，上面讲了图像的缺失处理，提到了伪标签处理的半监督学习方式。我就在国内的论坛上找了下，阿里云技术论坛也同样注意到了这个问题，但是只给出了如下的粗糙的构思图：

640?wx_fmt=png

有一份整理了的流程图，具体执行步骤总结，和大家一起看一下：

640?wx_fmt=png

将有标签部分数据分为两份：train_set&validation_set，并训练出最优的model1
用model1对未知标签数据(test_set)进行预测，给出伪标签结果pseudo-labeled
将train_set中抽取一部分做新的validation_set，把剩余部分与pseudo-labeled部分融合作为新的train_set，训练出最优的model2
再用model2对未知标签数据(test_set)进行预测，得到最终的final result label

我利用了已知标签的数据对这个方法进行测试，用了最简单的mixed logistic regression模型作为Basic Model，得到结果如下：

640?wx_fmt=png

利用伪标签半监督的方式，同样的mixed logistic regression模型AUC值会提高0.1pp左右，效果还不错，而且实施并不复杂，大家可以在缺失值处理或者分类问题中应用尝试一下。

原文链接：https://www.jianshu.com/p/fd4cae0d0e85

查阅更为简洁方便的分类文章以及最新的课程、产品信息，请移步至全新呈现的“LeadAI学院官网”：

www.leadai.org

请关注人工智能LeadAI公众号，查看更多专业文章

640?wx_fmt=jpeg

大家都在看

640.png?

LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理（一）

最全常见算法工程师面试题目整理（二）

TensorFlow从1到2 | 第三章深度学习革命的开端：卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

关注

2
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。