Ensemble Learning from Crowds

摘要

        来自众包标记数据的传统学习由两个阶段组成:从其多噪声标签的实例推断出真实标签,并使用这些实例使用这些实例使用这些实例。这种直接的两级学习方案遭受了两个弱点:(1)推理的准确性可能非常低; (2)有用的信息可能在推论期间丢失。在本文中,我们提出了一种从人群中学习的新型集合方法。我们所提出的方法是元学习计划。它首先使用引导过程从原始众包标记的数据集中创建M子数据集。对于每个子数据集,根据其多个噪声标签的分发和类成员资格,每个实例都以不同的权重复制。然后从此扩展子数据集接受基本分类器。最后,通过聚合这些基本分类器的输出来预测未标记的实例。由于所提出的方法摆脱了推理过程并使用完整的数据集来训练学习模型,因此它保留尽可能多地学习的有用信息。九个模拟和两个现实世界众包数据集的实验结果一致地表明,所提出的集合学习方法显着优于五种最先进的方法。

1 INTRODUCTION

        众包提供了一种方便和低成本的解决方案,以获得监督学习中的培训实例的课堂标签。但是,由于非专家贴标者的不确定性,收集标签的质量无法保证,对后续模型学习产生负面影响。为了提高模型培训中使用的标签的质量,我们通常让每个实例由多个不同的标签器标记,然后从这些多个噪声标签推断每个实例的集成标签。我们希望培训实例的集成标签非常匹配其未知的真品牌,因此可以提高由它们培训的学习模型的质量。盛等。 [1]首先系统地研究了这个问题,并且表明即使是最简单的多数票算法也可以提高集成标签的质量,最终提高学习模型的质量。从那时起,这种两级学习方案已被广泛应用于不同的应用[2],[3],因为它具有两个相对独立的步骤,即推断和模型训练,这易于在实践中分开开发。显然,在该方案下,如果推理算法(例如大多数投票)可以为训练样本提供高质量的集成标签,则使用现成的现成学习方法将获得学习模型的性能。因此,开发新推理算法优于大多数投票,这是过去十年中众包的基本研究课题[4]。

        多数投票推断出真正标签的一个主要问题是,它无法应对众群标签的复杂性,例如标签,垃圾邮件和对抗的偏见,贴标者的专业知识和意图,实例困难等等在。因此,研究人员在过去几年中努力设计了更好的推理算法[2],[5],[6],[7],[8],[9],其模拟了来自不同方面的众群标签,例如........对人群标签的复杂性进行建模,所有这些推理算法都预计达到高精度。然而,对许多真实世界众多的数据集进行了全面的实证研究[10]揭示了一些令人沮丧的事实,这些算法在大多数情况下,这些算法都不明显优于其他算法,并且在贴标者表现出低质量的情况下,所有这些算法都是平庸的。因此,通过设计更准确的推理算法几乎可以改善两阶段学习方案的性能。

        在本文中,我们提出了一种从人群中学习的新颖通用集合方法,这不会推断培训实例的真正标签,并直接从众包标记数据中建立学习模型,以预测未标记的实例的类标签。所提出的方法的动机在三个方面。首先,众包的情景可能是缺乏足够的基础事实。因此,传统的两阶段学习计划,真理推断是必要的。然而,在不可知的情景[10]中几乎无法改善真理推断的准确性,并且始终限制学习模型质量的提高[11]。其次,在推理过程中可能丢失有用的信息,这可能被一些分类算法(例如成本敏感的决策树和神经网络)用于获得更好学习的模型。我们所提出的方法是元学习方案,如果学习者被仔细选择,则可以很容易地适应不同类型的功能。通常,它首先使用引导过程来从原始众包标记的数据集创建M子数据集。对于每个子数据集,根据其多个噪声标签的分发和类成员资格,每个实例都以不同的权重复制。然后从此扩展子数据集接受基本分类器。通过聚合这些M个基本分类器的输出来预测未标记实例的类标签。

        是在众包中调查集合学习的第一个论文。paper的贡献在:(1)首先提出了一种新的集合学习方法,用于从人群中学习,而不会推断出真正的训练用的实例标签,这可以作为通用的meta-learning 方案; (2)它提出了一种用于二分类和多分类标签的新型实例重复方法; (3)首先表明神经网络在该方案下表现出的效果; (4)它表明,直接将传统的集合学习方法应用于众包可能不起作用。

        paper的剩余部分如下组织。第2节全面评论相关工作,注意到所提出的方法与其他工作之间的差异。第3节详细描述了所提出的方法。第4节介绍了我们对模拟和现实世界数据集的实验。第5节结束了论文。

2  RELATED WORK

        在从众包系统中收集嘈杂的标签后,可以使用与众包标签推断的集成标签的实例训练分类器。这是一种直接的两级元学习方案,其中实际推断和模型学习算法可以单独设计,实现和调整,因为它们是相互独立的。直观地,更好的真理推断将增加培训数据的标签质量,从而产生更好学习的模型。因此,许多研究在过去十年中重点关注真理推理算法。一些早期的方法都是直接从D&S模型【14】发展过来的。

  • Raykar et al【15】介绍了一种贝叶斯方法,以在推理期间模拟每个贴标器的特异性(specificity灵敏度(sensitivity)。
  • Zhang et al. [15]  利用范围方法优化DS模型的初始参数设置
  • Yan et al. [6]  提出了一种简单推理算法来模拟 labelers 的专业知识
  • Zhou et al. [16]  使用Minimax熵原理优化集成标签的质量。除了这些一般模型,一些工作在特定情景下调查了真理推断。
  • Li et al. [17]  提出了优化框架,以最大限度地减少真实性和多源数据之间的整体加权偏差。
  • Ma et al. [18]  提出了一种方法,即FaitCrowd,该方法共同模拟了注释者的局部专业知识和产生内容的过程。
  • Huang and Wang [19]  使用图模型建模不可靠来源对主题的相关性。
  • .
  • .
  • .
  • .

        我们的方法不仅可以摆脱训练数据的推断,而且适用于多级分类。Several methods directly build learning models from the crowdsourced labeled data without ground truth inference.  在他们的工作中,每个labelers被视为一个独立的分类器,并且可以通过多任务学习范例[28]使用全局优化的目标函数来建模。它们的方法避免了可以容易地陷入本地最佳的基于EM的推理。然而,由于逻辑回归以外的不同分类算法,既不遵循元学习方案,不能保证目标函数的凸起。因此,当训练数据的特征不适合逻辑回归时,它们可能无法表现良好。此外,仅提出了它们的方法进行二进制分类。主动学习[29]是另一种不包括推理的方法,但它仅在出现两个贴标程序的简单方案下工作。为了避免推断,盛[22]提出了一种用于决策树建模的成对训练策略,其中每个实例具有不同权重的正负副本。与上述相比,我们提出的方法是更普遍的元学习计划,因为它没有限制学习算法,labelers数量和class数量。

       

3 THE PROPOSED METHOD

        In this section, we present our novel ensemble learning method for crowdsourced labeled data in detail.

        设众包数据集为D,包含 I 个实例, \large D=\left \{ \left \langle x_{i}, y_{i}, L_{i} \right \rangle \right \}_{i=1}^{I} ,x_{i} 是部分特征,y_{i} 是实例 i 的真值(unKnown), L_{i} 是实例 i 的多噪声标签集合,其中每个元素 l_{ij} 是注释

器 j 提供的标签。Both noisy and true labels belongs to a class set C = \left \{ c_{k} \right \}_{k=1}^{K} , 目标就是去学习一个hypothesis h(x) ,可以最小化泛化误差。

\varepsilon (h(x))) = Pr (h(x)\neq y) , (x,y)\sim D)              (1)

        因为在我们的问题设置中,每个实例都与其多个噪声标签相关联,所以我们将每个实例复制到几个副本中,并让它们与不同类型的标签相关联。我们的方法不估计实例的真实标签。取而代之的是,我们找到了一个假设 h 来最小化训练集中的经验风险,该假设可以从重复的实例及其噪声标签中计算出来,如下所示:

\hat{\varepsilon }(\hat{h}(x^{'})) = \frac{1}{m}\sum_{i=1}^{m}V(\hat{h}(x^{i}), l^{i})     (2)

m 是实例数量,V是损失函数(通常用 0 1 损失)。

(理解:对于每一个实例,求出其)

3.2 Ensemble Learning Framework

【Bootstrapping算法,指的就是利用有限的样本资料经由多次 重复抽样,重新建立起足以代表母体 样本分布的新样本。】

        首先使用自举(bootstrapping)来创建M个采样数据集\left \{ D_{1}^{'}, D_{2}^{'}, D_{3}^{'}, ... , D_{M}^{'} \right \}, 这些采样数据集不能直接用来训练模型,因为每个实例只有一个多噪声标签集,不能输入分类算法,

然后我们将数据集中每一个转变成被分类算法采用的形式\large \left \{ D_{1}^{L}, D_{2}^{L}, D_{3}^{L}, ... , D_{M}^{L} \right \}, 下一节中讨论转化细节,我们从\large \left \{ D_{1}^{L}, D_{2}^{L}, D_{3}^{L}, ... , D_{M}^{L} \right \} 中 训练M个基础分类器

\large \left \{ h_{1}(x), h_{2}(x), h_{3}(x), ..., h_{M}(x) \right \},最后当对未标记的实例进行预测时,它的类标签是通过使用函数 F 聚合这些 M 个基本分类器输出而获得的。

 3.3 Refinement

        在上面的部分中,有两个问题的细节没有被触及:(1)我们如何将\large D_{i}^{'} 改为 \large D_{i}^{L};(2)如何聚合M个基本分类器的输出。

3.3.1  Duplication of Instances

        在 bootstrapping过程中,我们对每个实例 i 的多个噪声集不提供任何处理。由于现有的分类算法都不能接受带有多个噪声标签的实例进行模型训练,我们必须改变它们的形式。如果

涉及 gt 推理,每个实例将被分配一个集成标签,该标签将在训练过程中使用。然而,我们的方法不包括推论。例如  \large \left \langle x_{i}, y_{i}, L_{i} \right \rangle  (注意\large y_{i}是隐藏的和未知的),我们的方法创建了它的 K 个

副本,每个副本都有以下形式

\large \left \langle x_{i}^{(k))}, \hat{y}_{i}^{k} = c_{k}, w_{i}^{k} \right \rangle, k=1,2,...,K.    

        即我们为每一个类别 \large c_{k} 创建创建一个实例 i 的副本,带有一个权重 \large w_{i}^{k} , 假设 J个注释器给实例 i 提供的噪声标签为 \large L_{i} = \left \{ l_{i1}, l_{i2}, l_{i3}, ... , l_{iJ} \right \}.  实例 i 的副本的权重 \large w_{i}^{k}计算如下:

\large w_{i}^{(k))} = \frac{1 + \sum _{j=1}^{J}\mathbb{I}(l_{ij} = c_{k}))}{J+K},             (3)

        Ⅱ(·)是指示函数,如果满足条件就返回1,这里使用(Laplace)拉普拉斯平滑来避免零权重,权重反映了一个实例在学习中的重要性,可以直接反馈到学习算法中。许多主流的分类算法,如决策树、支持向量机、神经网络等。,采用分配给训练实例的权重。这就是为什么我们的方法避免了推理过程,并最大限度地保留了信息。

【举例】  注释器有4个, class有10个

样本:\large D=\left \{ \left \langle x_{i}, y_{i}, L_{i} \right \rangle \right \}_{i=1}^{I}

x_{i} 是部分特征,

y_{i} 是实例 i 的真值(unKnown), 

L_{i} 是实例 i 的多噪声标签集合,其中每个元素 l_{ij} 是注释器 j 提供的标签

instance <特征,真值(未知),标注集合>

\large D^{'}

featurespoppopj0
featurespoppopj1
featurespopbluej2
featurespoprockj3

\large D^{L}

featurespop\frac{3}{15}
featuresrock\frac{2}{15}
featuresblue\frac{2}{15}
featuresclassical

\frac{1}{15}

featuresjazz\frac{1}{15}
featuresreggea\frac{1}{15}
featureshiphop\frac{1}{15}
featurescountry\frac{1}{15}
featuresmetal\frac{1}{15}
featuresdisco\frac{1}{15}

 3.3.2  Aggregation of Base Classifiers

        在预测未标记实例的真实标签时,应通过聚合M个基本分类器的输出来获得其最终的估计类别。最简单的聚合函数是多数(或多数)投票,如下所示:

\large H(x) = argmax_{1\leq k\leq K}\sum_{m=1}^{M}\mathbb{I}(h_{m}(x) = c_{k}).            (4)

        然而,然而,这种简单的投票方案在众包场景中可能存在一定的风险。由于模型训练中使用的每个数据集\large D_{i}^{L}都是不完美的,我们不能像传统的监督学习那样通过交叉验证来判断每个基本分类器的优劣。也就是说,每个基本分类器的性能仍然不确定。因此,多数投票和加权多数投票都不可靠。当我们使用投票方案时,我们认为所有待预测的未标记实例以及所有基本分类器彼此独立。因此,一系列投票结果不能反映未标记实例的类别分布。这些结果既没有达到全局最优,也没有达到局部最优。

        为了提高预测性能,我们采用了基于最大似然估计的分组预测方案。简单地说,当我们预测第几个未标记的实例时,我们同时重新预测一组历史未标记的实例,例如,从第一个到(t-1)个。

        假设M个基分类器预测T个未标记的实例。所有分类器相对于所有未标记实例的输出形成矩阵A。然后,全似然为:

         其中,\prod =\left \{\pi _{kl}^{(m)} \right \}_{m=1}^{M} 是所有基本分类器的混淆矩阵集,\large \pi _{kl}^{(m)} 是分类器 m 预测类 c_{k} 为类 c_{l} 的概率。\large P = \left \{ p_{k} \right \}_{k=1}^{K} 是所有类先验概率的集合,\large \lambda _{tl}^{(m)}\in {(0,1)}

表示 分类器 m 是否预测\large x_t为类\large c_l.   虽然L的最大化是一项复杂的任务,但借助EM算法可以很容易地估计出所有参数(这里未知的是)。在步骤E中,属于类别k的每个未标记实例t的概率估计如下。

 在M步中,基本分类器的所有混淆矩阵所有类别的先验概率更新如下。

通过基于极大似然估计的分组预测方法,可以获得局部最优解。

 3.4 Theoretical Analysis

        在这一部分中,我们从理论的角度论证了我们的MLE弱分类器聚合的一些特性,并与广泛使用的多数投票聚合方法进行了比较。

        我们考虑简单的一元模型,即弱分类器的预测不是正确就是错误,类标签不是0(负)就是1(正),负类和正类上的预测正确概率相同。在弱分类器的可靠性优于随机猜测的基本假设下,我们的解决方案包括M个弱分类器。我们把我们的分析结果总结为两个定理。

        Theorem 1 (Error bound for EM).

        假设从众包数据中训练的M个弱分类器预测T个未标记实例。Let \large A = (A_{mt})^{M*T} (A_{mt}\in {\left \{ 0,1 \right \}}), 是由 M个弱分类器 提供的 T个实例 的预测标签,并且\large r_{m}\in [0.5, 1] 是弱分类器的可靠性。在 one-coin 模式下,EM迭代过程中每一步的错误率上限为

 Proof. 在EM算法的每次迭代中,我们的聚合模型最大化了 对数似然函数

 利用詹森不等式,我们有

        

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值