中国人工智能学会通讯——一种基于众包的交互式数据修复方法 4 实验-CSDN博客

4 实验

我们在两个真实数据集和一个仿真数据集上进行了实验。同时，在本研究组中邀请了20位用户作为众包工人，这些工人都具备一定的领域知识。

（1）个人信息表(PersonInfo)。这个表是关于研究人员的联系信息表，一共包含50 000个元组，每个元组包含9个属性，分别是name、email、title、university、street、city、state、country和zip code。

（2）DBLP表(DBLP)。此表是关于已出版论文的出版信息表，一共包含100 000个元组，5个属性。每个元组包含1篇发表论文的信息，包括title、first author、affiliation、conference name、year和venue等属性。

（3）仿真数据集(Syn)。该表共有1 000 000个元组，100个属性，表中第一个属性是主属性，且所有属性的依赖关系的置信度在0.7～1之间。

这三个数据集中都不包含错误的数据。为了生成实验所需的包含错误的表格，在保证每个元组关键属性值不变的前提下，将随机位置上的非关键属性值替换成从表格中随意挑选的元组中的属性值。

4.1 修复质量评估

在下面的实验中，我们将在这三个数据集上比较四个先进的文本数据修复方法、基于纯众包修复和众包辅助修复方法的修复质量。

（1）Rule-based Most-Likely(CFD-ML)算法。这种方法使用FD/CFDs规则来检测和修正错误的数据[2]，并遵循2.1节中介绍的最有可能产生正确修正的准则。

（2）基于ERACER模型的算法。这种基于模型的修复方法是基于信息传播和关系依赖网的。与之前在隔离状态下清洗数据的工作相比，这种方法是在整个数据库中挖掘数据的图结构来推论数据正确与否[10]。

（3）基于SCARE模型的算法。这是另一种基于模型的修复方法，通过使用机器学习统计技术建模，使替换后的数据正确率最大化。

（4）Crowd-based (GuidedRepair)算法。我们实现了文献[8]中介绍的先进的基于众包修复的方法，该方法通过收集用户的反馈，自适应地调整训练数据集从而改善数据修复模型。

我们首先在两个错误率为10%的真实数据集上，对所有的方法的准确率，召回率和F1进行一个综合的比较。每种方法的参数设置都必须使该方法达到最高的修复质量，即F1。实验结果如表2所示，基于规则的修复方法(CFD-ML)的准确率和召回率都不高，因为它只修复了数据集中大概一半的错误值，且它错误的修改概率高达40%～60%。相比较而言，两个基于模型的方法(ERACER和SCARE)比基于规则修复的方法的准确率高了5%～10%,因为它们建的模型可以理解数据间的关联关系，从而能做出更好的判断。另一方面，它们的召回率和基于规则的方法一样的低，因为这些模型不能很好地解决非量化的属性，如email、street、author和venue。从表中可以明显地看出，GuidedRepair、PureCrowRepair和CrowdAidRepair的准确率和召回率远高于基于规则和基于模型的修复方法，这三种方法的准确率和召回率都能达到85%以上。特别是PureCrowdRepair,因为这种方法中的每次修正都是人工进行的，所以它的准确率和召回率最高。我们的方法CrowdAidRepair的准确率和召回率比PureCrowdRepair方法低一点，但比GuidedRepair方法高。这是因为我们的方法结合了规则和众包的优点，所以即使人工地构建一个模型，也会比这个模型更高效。

然后，我们在不同的错误率(1%、3%、5%、10%、20%、30%、40%)下，将设置为0.7，比较了所有方法在两个真实数据集中的F1得分。如图5所示，CrowdAidRepair的F1比其他四种方法都高，包括GuidedRepair方法，这就证明了CrowdAidRepair方法比其他四种方法都好。

4.2 众包评估方法的修复成本

本文中，将需要众包修改(#Crowd)的值的个数作为该修复方法的人工成本。现在比较CrowdAidRepair、PureCrowdRepair和GuidedRepair这三种方法的人工修改成本（#Crowd）。

正如图6所示，CrowdAidRepair只需要PureCrowdRepair 20%的人工成本，因此大大减少了处理过程的时间。但是和GuidedRepair相比较，我们消耗了更多的时间来保证修复的高质量。

4.3. 交互方案的评估

为了更进一步地评估CrowdAidRepair的效率，比较了两种交互方案的效率，第一种是只考虑dScore情况下得出的交互式方案，称为dScore-based方案；第二种是CrowdAidRepair生成的方案，这种方案同时考虑了dScore和冲突间的依赖关系，称为depend-aware方案。实验中，将数据集的错误率设置为10%，通过控制阀值τ从0变化到1，比较每个交互方案的修复质量（准确率和召回率）和成本。

如图7(a)和(b)所示，dScore-based和depend-aware方案可以达到相同的准确率和召回率。另一方面，在图7(c)中，当τ从0增加到0.8时，两个方案的成本是随之增长的；但当τ从0.8增长到1时，它们的成本反而随之减少。这是因为当质量约束条件变得越来越苛刻时，能够被修改的值也变得越来越少。depend-aware方案的成本比dScore-based方案大概减少了40%，证实了depend-aware方案的优越性。