数据挖掘学习
文章平均质量分 71
麻辣香郭诶
来自重庆某四非大数据的麻辣香郭
博客网站:malaxg.top
展开
-
类别不平衡问题
类别不平衡也就是正负样本在数据集中的占比非常不均匀,人就是其中一类比另一类多得多。数据偏斜。这是在现实生活中不可避免的问题,比如我们如果要预测一种罕见病,既然是罕见病,那么患它的患者一定比较少,所以在这样的数据集中正样本占比就会比较少,这种情况下是不容易学到一个好的分类器的。加权处理;过采样;降采样;原创 2022-10-10 13:08:04 · 235 阅读 · 0 评论 -
伪标签技术
那么到底什么是伪标签?伪标签的定义来自于半监督学习,半监督学习的核心思想就是通过借助无标签的数据来提升有监督过程中的模型性能。那么说了一大串,什么又是半监督学习呢?百度百科是这样定义的:半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。原创 2022-09-30 16:47:09 · 1335 阅读 · 1 评论