Tri-training, 协同训练算法

最新推荐文章于 2023-09-24 15:09:47 发布

我叫八进制

最新推荐文章于 2023-09-24 15:09:47 发布

阅读量5.1k

点赞数 1

分类专栏：人工智能

本文链接：https://blog.csdn.net/Octal_H/article/details/89284702

版权

最初的协同训练算法(或称为标准协同训练算法)是A. Blum和T. Mitchell [BlumM98] 在 1998年提出的。他们假设数据集有两个充分冗余(sufficient and redundant)的视图(view),即两个满足下述条件的属性集:第一,每个属性集都足以描述该问题,也就是说,如果训练例足够,在每个属性集上都足以学得一个强学习器;第二,在给定标记时,每个属性集都条件独立于另一个属性集。A. Blum和T. Mitchell认为,充分冗余视图这一要求在不少任务中是可满足的。例如,在一些网页分类问题上,既可以根据网页本身包含的信息来对网页进行正确分类,也可以利用链接到该网页的超链接所包含的信息来进行正确分类,这样的网页数据就有两个充分冗余视图,刻画网页本身包含的信息的属性集构成第一个视图,而刻画超链接所包含的信息的属性集构成第二个视图。A. Blum和T.Mitchell的算法在两个视图上利用有标记示例分别训练出一个分类器,然后,在协同训练过程中,每个分类器从未标记示例中挑选出若干标记置信度(即对示例赋予正确标记的置信度)较高的示例进行标记,并把标记后的示例加入另一个分类器的有标记训练集中,以便对方利用这些新标记的示例进行更新。协同训练过程不断迭代进行,直到达到某个停止条件。该算法如图 1 所示,其中x1和x2分别指示例x在第 1 视图和第 2 视图上对应的示例。A. Blum和T. Mitchell [BlumM98] 对图 1 的算法进行了分析,证明了在充分冗余视图这一条件成立时,图 1 算法可以有效地通过利用未标记示例提升学习器的性能,实验也验证了该算法具有较好的性能。