Tri-training, 协同训练算法

        最初的协同训练算法(或称为标准协同训练算法)是A. Blum和T. Mitchell [BlumM98] 在 1998年提出的。他们假设数据集有两个充分冗余(sufficient and redundant)的视图(view),即两个满足下述条件的属性集:第一,每个属性集都足以描述该问题,也就是说,如果训练例足够,在每个属性集上都足以学得一个强学习器;第二,在给定标记时,每个属性集都条件独立于另一个属性集。A. Blum和T. Mitchell认为,充分冗余视图这一要求在不少任务中是可满足的。例如,在一些网页分类问题上,既可以根据网页本身包含的信息来对网页进行正确分类,也可以利用链接到该网页的超链接所包含的信息来进行正确分类,这样的网页数据就有两个充分冗余视图,刻画网页本身包含的信息的属性集构成第一个视图,而刻画超链接所包含的信息的属性集构成第二个视图。A. Blum和T.Mitchell的算法在两个视图上利用有标记示例分别训练出一个分类器,然后,在协同训练过程中,每个分类器从未标记示例中挑选出若干标记置信度(即对示例赋予正确标记的置信度)较高的示例进行标记,并把标记后的示例加入另一个分类器的有标记训练集中,以便对方利用这些新标记的示例进行更新。协同训练过程不断迭代进行,直到达到某个停止条件。该算法如图 1 所示,其中x1和x2分别指示例x在第 1 视图和第 2 视图上对应的示例。A. Blum和T. Mitchell [BlumM98] 对图 1 的算法进行了分析,证明了在充分冗余视图这一条件成立时,图 1 算法可以有效地通过利用未标记示例提升学习器的性能,实验也验证了该算法具有较好的性能。

        然而,在真实问题中充分冗余视图这一要求往往很难得到满足。实际上,即使对 A. Blum 和 T.Mitchell 所举的网页分类的例子来说也是这样,因为“网页本身的信息”这一视图与“超链接上的信息”这一视图很难满足条件独立性。K. Nigam 和 R. Ghani [N

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值