系列文章目录
第一章 伪标签
目录
前言
最近遇到一个问题,模型训练样本的数量太少了,然后有一个思路就是将一些有标签数据和无标签数据放一起训练模型,以此来提高模型的性能。查找了一些资料,本文就从理论上来阐述一下这样做的原理。
一、什么是伪标签
为了训练机器学习模型,在监督学习中,数据必须是有标签的。
可是当有标签的数据不够时,是否可以利用无标签的数据呢?
答案时可以的。那么如何使用无标签的数据来训练模型呢?我们可以将无标签数据和标签数据结合起来,一同训练半监督学习模型。
利用模型对无标签数据进行预测生成的标签就叫做伪标签。
二、算法思想
该方法的思想其实很简单。
首先,我们在标签数据上训练模型,然后使用经过训练的模型来预测无标签数据的标签,这样无标签的数据就有了标签了