（学习笔记）基于众包学习的交互式特征选择方法

最新推荐文章于 2023-06-08 12:10:44 发布

葛葎蔓酒花

最新推荐文章于 2023-06-08 12:10:44 发布

阅读量647

点赞数 1

分类专栏：笔记文章标签：深度学习

本文链接：https://blog.csdn.net/jtup1253/article/details/124360024

版权

笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

一、一些前置知识储备

什么是众包：

众包指的是一个公司或机构把过去由专业人员执行的工作任务，以自由自愿的形式外包给非特定的（而且通常是大型的）大众志愿者的做法。不同于外包强调的是高度专业化，众包将交给专业团队得任务改为将任务交给感兴趣的个体，做到低廉成本解决专业问题，众包就是外包的大众化。

众包带来的问题：

虽然众包可以使我们用低廉的成本获得大量标注后的数据，但这些数据由很多非专业人士完成的，其中存在大量的矛盾数据（标注错）、覆盖面窄、标注缺失（不精确、标注少），而这部分低质量的数据对我们后续工作的进行造成了极大困难。

众包学习：

一种算法模型，从众包数据中推测出样本的正确类标，类似于之后会提到的最大间隔多数表决众包学习模型 (max-margin majority voting, M3V)

集成学习：

我们的目标是实现一种稳定且各方面表现较好的模型，但在实际应用中我们得到的往往是多个有不同偏好的模型（弱监督模型），而集成学习就是通过对多个弱监督模型的整合，不断接近我们最初的目标

二、M3V（MAX-Margin-Majority-voting）算法

1）M3V前置知识：

MLE:最大似然值 EM:期望最大化

众包学习的目的旨在设计适当的聚合策略，从普通网络工作者提供的嘈杂标签中推断出未知的真实标签。目前建模方法包括两种：生成性建模方法、判别型建模方法。

生成性建模方法是一种灵活的概率模型，用于生成未知的真实标签和一些以假设为条件的噪声观测。

判别型建模方法，通过某些聚合方法直接识别真实标签

M3V将潜在的真实标签的得分情况与任何替代标签得分之间的间隔最大

Majority V oting Estimator多数表决：它假定对于每项任务，真正的标签总是最常见的。因此，它通过解决问题为每个任务选择最频繁的标签作为其真实标

I是一个指示函数，如果谓词为真那么得1否则为0.

Ds估计器

ThetaJ:工人j得混肴矩阵 Thetajkd:工人标签正确的概率

前者：工人j标记正确后者：工人j标记正确得次数

（M3V）多数表决是一种判别模型，它直接为每个项目找到最可能得标签，而M3V则是一种加权多是表决模型得拓展。使用全一向量平等对待每个工人来完成多数表决

由于工人背景不同所以不现实，引入权值概念

众包间隔

超平面一定过原点，超平面将空间分为两个部分，用于0，1二分类。找到与超平面间隔最大得那个点将潜在得真实值与其他标签区分开。所谓间隔最大即是：在法向量上投影得间隔最大。关于此部分可参考SVM最大间隔（超平面与潜在真实标签）是最小边距（潜在真实值与其他标签之间）

M3V与SVM最大不同：SVM在寻求最大化一些数据的边际来实现标签分类时为了避免平凡解使用了平衡约束，但M3V并不需要这种约束。（“平凡” 也用于一个方程具有非常简单结构的解，但是为了完整性不能省略。这种解称为平凡解。例如，Ax=0中的零解,即x=0。）

三、本文的模块以及逻辑

众包学习模块逻辑图（手绘）

Crowd-EFS 算法首先使用多数表决方法得到初始特征选择结果, 并根据特征选择结果估计每个特征选择方法的混淆矩阵. 在混淆矩阵和特征选择结果的基础上, 该算法推测出特征选择方法的可靠性向量. 算法根据可靠性向量调整每个特征选择方法的权值, 从而得到新的特征选择结果. 根据新的特征选择结果, 算法进行新一轮的混淆矩阵以及可靠性向量的更新.