Self-training
利用已标注样本L,对未标注数据U进行标注
- 用所有已标注样本L进行模型训练,得到模型F
- 利用F对未标注数据进行预测,将置信度高的数据放入到L集合中
- 重复1和2,直到所有数据被标注或者无置信度高的新标注数据
Co-training
利用已标注样本L,对未标注数据U进行标注
- 数据分成2个view(比如根据2个特征维度划分),分别为L1和L2
- 进行模型训练,使用L1得到模型F1,使用L2得到模型F2
- 利用F1和F2分别对未标注数据U进行预测,把F1预测置信度高的数据放到L2,把F2预测置信度高的数据放到L1(注意这里是交叉放置)
- 重复2和3,直到所有数据被标注或者无置信度高的新标注数据
其实Self-training和Co-training除了可以进行半监督样本标注外,还可以进行进行噪声样本的学习,比如只用置信度高的部分数据进行参数更新,或者对置信度高的数据进行加权等等。