一、一些前置知识储备
什么是众包:
众包指的是一个公司或机构把过去由专业人员执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众志愿者的做法。不同于外包强调的是高度专业化,众包将交给专业团队得任务改为将任务交给感兴趣的个体,做到低廉成本解决专业问题,众包就是外包的大众化。
众包带来的问题:
虽然众包可以使我们用低廉的成本获得大量标注后的数据,但这些数据由很多非专业人士完成的,其中存在大量的矛盾数据(标注错)、覆盖面窄、标注缺失(不精确、标注少),而这部分低质量的数据对我们后续工作的进行造成了极大困难。
众包学习:
一种算法模型,从众包数据中推测出样本的正确类标,类似于之后会提到的最大间隔多数表决众包学习模型 (max-margin majority voting, M3V)
集成学习:
我们的目标是实现一种稳定且各方面表现较好的模型,但在实际应用中我们得到的往往是多个有不同偏好的模型(弱监督模型),而集成学习就是通过对多个弱监督模型的整合,不断接近我们最初的目标
二、M3V(MAX-Margin-Majority-voting)算法
1)M3V前置知识:
MLE:最大似然值 EM:期望最大化
众包学习的目的旨在设计适当的聚合策略,从普通网络工作者提供的嘈杂标签中推断出未知的真实标签。目前建模方法包括两种:生成性建模方法、判别型建模方法。
生成性建模方法是一种灵活的概率模型,用于生成未知的真实标签和一些以假设为条件的噪声观测。
判别型建模方法,通过某些聚合方法直接识别真实标签
M3V将潜在的真实标签的得分情况与任何替代标签得分之间的间隔最大
Majority V oting Estimator多数表决:它假定对于每项任务,真正的标签总是最常见的。因此,它通过解决问题为每个任务选择最频繁的标签作为其真实标
I是一个指示函数,如果谓词为真那么得1否则为0.
Ds估计器
ThetaJ:工人j得混肴矩阵 Thetajkd:工人标签正确的概率
前者:工人j标记正确 后者:工人j标记正确得次数
(M3V)多数表决是一种判别模型,它直接为每个项目找到最可能得标签,而M3V则是一种加权多是表决模型得拓展。使用全一向量平等对待每个工人来完成多数表决
由于工人背景不同所以不现实,引入权值概念
众包间隔
超平面一定过原点,超平面将空间分为两个部分,用于0,1二分类。找到与超平面间隔最大得那个点将潜在得真实值与其他标签区分开。所谓间隔最大即是:在法向量上投影得间隔最大。关于此部分可参考SVM最大间隔(超平面与潜在真实标签)是最小边距(潜在真实值与其他标签之间)
M3V与SVM最大不同:SVM在寻求最大化一些数据的边际来实现标签分类时为了避免平凡解使用了平衡约束,但M3V并不需要这种约束。(“平凡” 也用于一个方程具有非常简单结构的解,但是为了完整性不能省略。这种解称为平凡解。例如,Ax=0中的零解,即x=0。)
三、本文的模块以及逻辑
众包学习模块逻辑图(手绘)
Crowd-EFS 算法首先使用多数表决方法得到初始特征选择结果, 并根据特征选择结果估计每个特征选择方法的混淆矩阵. 在混淆矩阵和特征选择结果的基础上, 该算法推测出特征选择方法的可靠性向量. 算法根据可靠性向量调整每个特征选择方法的权值, 从而得到新的特征选择结果. 根据新的特征选择结果, 算法进行新一轮的混淆矩阵以及可靠性向量的更新.
M3V:很类似于我们机器学习中的支持向量机,他将SVM中的概念以及判断方法公式应用于众包数据集,从而实现对众包数据正确标签的合理推测。
可靠性向量:一个k维向量,其中k表示特征值选择方法的个数、向量中的值选择方法性能的综合度量。
由混肴矩阵得到可靠性向量,之后再由可靠性向量调节各个特征选择方法的权值。
可视化模块
交互式可视化模块包含一个主可视化:特征可视化; 以及两个辅助可视化:性能可视化和样本可视化.
排序方法: (1)按照 Crowd-EFS 算法输出的特征置信度排序 (2)按照特征在不同类上出现频率分布的熵排序. 熵衡量了一个分布的均匀性. 一个特征在不同类上出现频率分布越不均匀, 其区分不同类的能力越强. (3)按照特征选择方法评分之和排序.
可视化模块的使用流程
四、最后
Crowd-EFS 算法分为两步. 首先其将多个特征选择方法的结果转化为众包数据 (数据转化), 然后使用 M3V 模型将转化后的众包数据集成得到最终的特征选择结果 (集成).
此时将 L 输入 M3V 模型得到每个特征的推测类标 y.
最终算法可得到正确类标 y 以及每个特征的类标等于 1 (即被选出) 的置信度. 置信度高的特征优先被选出.