Co-training是一种半监督机器学习的方法,它的基本思想是:构造两个不同的分类器,利用小规模的标注语料,对大规模的未标注语料进行标注的方法.
Co-training方法最大的优点是不用人工干涉,能够从未标注的语料中自动学习到知识。利用两个不同学习器在数据集的/分割的特性集上独立学习,并结合两个学习器的学习结果作出最后学习结论,这样来达到降低错误率的目的
Co-training方法,是有指导和无指导机器学习两者的一个折中办法,它的原则是:在不牺牲性能的前提下,尽量多的使用未带标数据,它从一个小规模的带标的语料库开始,同时使用大规模的未带标语料来进行学习。
Co-training的描述如下:
可以应用于分类问题中;
先通过已标注的样本(多个)对分类器进行训练,得到多个分类器
对于未标注的样本分别放入各个分类器,选取每个分类器中都比较高的自信度,作为类别;
把这些样本加入到训练集中,迭代这个过程,直到所有未标注样本都被标注;
【注:本文只是作为作者学习过程中的笔记,感想以及相关资源的整理,仅供参考,欢迎批评指正】