多视角半监督学习:从文本数据中得到不同视角

摘要:
监督机器学习方法通常要求大量有标记数据已获得高的准确性。本文是讲述对于文本分类人任务包含在线数据源,例如网页页面,email和科学文章。半监督学习代表了监督和无监督学习的折中。多视角半监督学习要求一个每个样本的描述被划分到至少两个不同的视角。本文,我们提出一种简单的方法杜宇文本预处理为了简单构造两种不同视角由多视角学习算法。
1 简介
多视角学习共同训练方法在本文中应用到数据集,具有一个将特征自然的划分到两个不相交集。换句话说,每个样本由两个不相交视角来描述,然而每个视角都足够推导分类器。Afterward,一个监督学习系统使用每个视角分别训练,产出两个不同分类器。这些分类器被用到标记和未标记样本,对每个分类分配一个置信度。未标记样本分类有一个高的置信度将被用作扩大有标记样本集。这个过程重复来增加有标记集合知道达到停止标准。
本文,我们提出和评估一个简单方法来得到两个不相交视角使用共同训练,对于文本基。
2 相关工作
半监督学习可以被分成单视角和多视角。在单视角场景,算法能得到领域特征的完整集合。在多视角设定中,领域特征只呈现在不同子集(视角)对于足以学习目标概念。单视角算法可以划分成直推醒,期望最大变式,基于算法的背景知识和聚类算法。多视角算法是基于假设视角都是不相关和兼容。若所有样本在每个视角中都能由目标概念所标记,那么数据集是兼容的。两个不相关的视角当给定任何样本的标签,它在每个视角中的描述是独立的。
共同训练引入多视角学习的理论基础,其他多视角学习被提出:例如CO-EM,结合了EM和co-training.Co-testing 结合了激活和半监督学习,co-emt是co-testing 和co-EM的拓展。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值