监督学习模型需要标注数据
学习一个可靠的模型需要大量标注数据,但是获得有标志的数据是很昂贵的,大量的数据还是没有标注的。
是否可以获取免费的标注?
验证码就是他们收集标注信息的东西
我们能否利用无标注数据学习出更好的模型?
有些无标注的数据对分类是有用的,假设: 同一个类别的样本内在服从一致的分布,无标注数据能够给出更有意义的分类边界。
人类就常常使用半监督学习
• 婴儿单词物体映射
• 17个月的婴儿听单词,看物体
• 如果这个单词听了很多遍,再看到物体,关联能力很强
• 如果从没听过,关联能力很弱
半监督学习
通用想法:同时利用有标注数据和无标注数据学习
半监督分类/回归