Co-training 初探快切入

Co-Training是一种半监督学习方法,利用少量标记样本与多个模型交互来学习并标记未标记样本。文章探讨了single-view和multi-view方法,指出模型选择对性能的影响,并介绍了结合主动学习的Co-EMT算法。此外,提到了在电子邮件分类和DCPE分类中的应用。
摘要由CSDN通过智能技术生成

先做个总结

  1. co-training方法是一类半监督方法,是一个框架,核心就是利用少量已标记样本,通过两个(或多个)模型去学习,对未标记样本进行标记,挑选most confidently的样本加入已标记样本阵营。
  2. 目前主要存在两种方法:single-view 和 multi-view。最开始提出的是multi-view,就是对特征进行拆分,使用相同的模型,来保证模型间的差异性。后来论证了single-view方法,也就是采用不同种类的模型,但是采用全部特征,也是可以的。基于后一种方法,好多开始做集成方法,采用boosting方式,加入更多分类器,当然也是可以同时做特征的采样。
  3. co-training的性能是受选定的模型的影响的,比如分类任务,虽然是用多个弱分类器集成co-train,但是太弱也不行。要知道是把分类器对未知样本进行分类的结果作为label放入标记训练集里,分类器的结果不能代表ground truth,加进去后性能可想而知。下文有篇论文给出了Navie Bayes和SVM的差异,一个用co-training性能下降,起反作用,一个能提升性能(虽然很有可能是鬼扯)。
  4. 主要是处理数据集中,已标记样本少,或者标记不均衡,又想利用全部数据(未标记的样本)

以下是具体看论文的笔记,由于专注于了解这个领域,很多都略过,直接看任务和方法,处理什么问题,怎么处理之类的。

Active + Semi-Supervised Learning = Robust Multi-View Learning

I Muslea S Minton CA Knoblock  - ICML, 2002 - researchgate.net

We first show that existing semi-supervised algorithms are not robust over the whole spectrum of parameterized problems. Then we introduce a new multi-view algorithm, Co-EMT, which combines semi-supervised and active learning. Co-EMT outperforms the other algorithms both on the parameterized problems and on two additional real world domains. Our experiments suggest that Co-EMT’s robustness comes from active learning compensating for the correlation of the views.


相关方法的列举



Co-EM比较有意思,一个模型的M步得到的模型(其实是很调参),给另一个模型作为E步


Co-training 是一种半监督学习方法,它可以利用未标记的数据来提高模型的性能。下面是一个 Python 实现的 Co-training 代码示例: ```python import numpy as np from sklearn.naive_bayes import MultinomialNB class CoTrainer: def __init__(self, clf1, clf2, n_iter=10): self.clf1 = clf1 self.clf2 = clf2 self.n_iter = n_iter def fit(self, X_unlabeled, y_unlabeled, X_labeled1, y_labeled1, X_labeled2, y_labeled2): for i in range(self.n_iter): # 训练第一个分类器 self.clf1.fit(X_labeled1, y_labeled1) # 使用第一个分类器预测未标记数据的标签 y_pred1 = self.clf1.predict(X_unlabeled) # 找出第一个分类器预测的置信度最高的样本 idx1 = np.argsort(-self.clf1.predict_proba(X_unlabeled), axis=1)[:,:1] # 将这些样本加入第一个标记集 X_labeled1 = np.vstack((X_labeled1, X_unlabeled[idx1])) y_labeled1 = np.hstack((y_labeled1, y_pred1[idx1])) # 从未标记集中删除这些样本 X_unlabeled = np.delete(X_unlabeled, idx1, axis=0) y_unlabeled = np.delete(y_unlabeled, idx1, axis=0) # 训练第二个分类器 self.clf2.fit(X_labeled2, y_labeled2) # 使用第二个分类器预测未标记数据的标签 y_pred2 = self.clf2.predict(X_unlabeled) # 找出第二个分类器预测的置信度最高的样本 idx2 = np.argsort(-self.clf2.predict_proba(X_unlabeled), axis=1)[:,:1] # 将这些样本加入第二个标记集 X_labeled2 = np.vstack((X_labeled2, X_unlabeled[idx2])) y_labeled2 = np.hstack((y_labeled2, y_pred2[idx2])) # 从未标记集中删除这些样本 X_unlabeled = np.delete(X_unlabeled, idx2, axis=0) y_unlabeled = np.delete(y_unlabeled, idx2, axis=0) # 在两个标记集上合并训练数据 X_train = np.vstack((X_labeled1, X_labeled2)) y_train = np.hstack((y_labeled1, y_labeled2)) # 使用合并后的训练集重新训练两个分类器 self.clf1.fit(X_train, y_train) self.clf2.fit(X_train, y_train) def predict(self, X): # 合并两个分类器的预测结果 y_pred1 = self.clf1.predict(X) y_pred2 = self.clf2.predict(X) return np.hstack((y_pred1.reshape(-1, 1), y_pred2.reshape(-1, 1))) ``` 这个 Co-training 的实现使用了朴素贝叶斯分类器作为基分类器,可以根据需要替换为其他分类器。在 `fit` 方法中,我们首先训练两个基分类器,然后将它们用于预测未标记数据的标签。接着,我们分别找出两个分类器预测置信度最高的样本,将它们加入两个标记集,并从未标记集中删除这些样本。这个过程重复进行多次,直到未标记集为空。最后,我们使用两个标记集合并后的训练数据重新训练两个分类器,并在预测时合并两个分类器的预测结果。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值