本节课主要讲了半监督学习Semi-supervised:样本中有一部分数据有标签(label data)但很少,另一部分数据无标签(unlabel data),很多~因为收集无标签的数据很容易,但是收集有标签数据没那么容易~
图片来源于李宏毅老师ppt,如有错误务必指正!!
博主总结的时候喜欢中英夹杂,别介意!
1.Semi-supervised Generative Model
基本思想(EM):
(1)先用label data训练一个model
(2)再用unlabel data不断更新model
与一般的生成模型不同的是(比如NB可以一次性就得到closed form solution),这种方式需要不断iterate~这种方式也叫作self-training
self-training
基本思想:
(1)先用label data 训练一个model f
(2)用这个model f去test unlabel data,会得到pseu-label的数据(假装被分了类),再把这些数据加入label data集