时间约束的实体解析中记录对排序研究

本文链接：https://blog.csdn.net/m0_62870606/article/details/123152248

时间约束的实体解析中记录对排序研究

来源：《软件学报》，作者孙琛琛等

摘要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤.传统的批处理式实体解析的整体运行时间较长,无法满足当前(近似)实时的数据应用需求.因此,研究时间约束的实体解析,其核心问题是基于匹配可能性的记录对排序.通过对多路分块得到的块内信息与块间信息分别进行分析,提出两个基本的记录匹配可能性计算方法.在此基础上,提出一种基于二分图上相似性传播的记录匹配可能性计算方法.将记录对、块及其关联关系构建二分图;相似性沿着二分图不断地在记录对结点与块结点之间传播,直到收敛.收敛结果可以通过不动点计算得到.提出近似的收敛计算方法来降低计算代价,从而保证实体解析的实时召回率.最后,在两个数据集上进行实验评价,验证了所提出方法的有效性,并测试方法的各个方面.

关键词:实体解析;记录对排序;时间约束;数据集成

实体解析(entity resolution,简称ER)是数据集成和数据清洗的重要组成部分,它将数据源中描述相同实体的记录分到同一组[1−15].大数据具有多样性的特点,描述同一实体的记录可能以多种形式出现,成为大数据可用性的一个瓶颈,因此,ER 是大数据分析与挖掘的必要预处理操作[15].传统的ER 包括分块、相似性计算和匹配决定等步骤,将整个脏数据集作为输入,批处理之后整体输出解析结果[1,3].在大数据时代,一方面,数据产生的速度和更新的频率比以往更快;另一方面,大量(近似)实时的数据分析应用出现要求有限的时间内解析出尽量多的匹配记录,称为时间约束的实体解析(entity resolution with time constraint,简称TC-ER),传统的批处理ER 无法满足这种新需求.

当前有很多时间约束的ER 应用,例如犯罪侦查应用中要求近似实时的实体解析,希望在较短时间内解析出一部分嫌疑人记录来,以便及时地布署侦查行动.尽管短时间内解析的结果不完整,但及时的解析结果可以大大增加抓捕到嫌疑人的可能性.再例如网购比价服务(如一淘网)中,互联网用户搜索了一件商品后,系统将尽快返回一部分匹配的商品条目,并逐渐优化搜索结果,这样可以提升用户体验,因为众所周知,互联网用户是没有耐心的.

时间约束的ER 希望在给定的短时间(远少于批处理运行时间)内将解析结果最大化.TC-ER 的关键在于实体解析过程中的记录对选择,即优先选择匹配可能性大的记录对进行解析.Whang 等人提出了3 个基于“线索”的启发式Pay-as-you-go ER 方法,其中的“线索”分别是排序的记录对列表、记录集合的层次划分和排序的记录列表[6].Papenbrock 等人提出一组基于排序的记录列表的渐进式ER 方法,其中,渐进式滑动窗口方法将变化的窗口多次滑过排序列表生成候选对;渐进式分块方法将排序列表划分成等规模小块,然后渐进地扩大分块范围[7].Papenbrock 等人提出的基于排序列表的方法要优于Whang 等人提出的基于“线索”的方法[7].这些方法都假定已知最优分块键或排序键,并且无法对记录对进行全局排序,因此可用性和实时召回率都比较受限.由此可见,已有的时间约束的ER 方法有较大的改进空间.

本文研究时间约束的实体解析中记录对排序,通过优先选择匹配可能性高的记录对进行解析,来保证实时的召回率.分块是ER 中降低计算代价的基本的、有效的手段[16−26],然而单凭分块方法无法实现时间约束的ER.整体而言,将分析和挖掘分块信息来估计记录对的相似性.将脏数据集进行多路分块后生成有交叠的块集合,如果一个块包含的记录越多,那么块内记录的匹配可能性越小;如果两条记录共同出现的块数目越多,那么它们的匹配可能性越大.首先,基于这些直观的思想,提出两个基本的记录对相似性估计方法,分别利用了块内信息和块间信息.接下来,通过考虑记录对的相似性与块的质量之间的相互影响来改进基本的相似性估计方法.将记录对、块及其关联关系映射成二分图;然后相似性在二分图上迭代地传播,直到收敛,获得最终的相似性.基于图传播的相似性估计充分挖掘了分块的隐藏信息,从而更有效.提出了基于不动点迭代的收敛结果计算方法,然而其计算代价较大;进一步提出了近似的收敛结果计算方法,力求在不影响记录对相似性估计有效性的前提下降低计算代价,从而保证时间约束的ER 的实时召回率.通过实验评估,证明了提出方法的有效性.

本文的主要贡献总结如下:

·提出两种基本的记录对相似性估计方法,分别利用了块的质量(块内信息)和记录与不同块的隶属关系(块间信息);

·提出了基于相似性传播的记录对相似性估计方法,利用二分图上可收敛的相似性传播来衡量记录对的相似性,通过不动点迭代来计算收敛结果,并提出了近似方法来降低计算代价;

·在两个数据集上,通过与已有方法的对比测试,证明了本文提出方法的有效性;此外,对比了不同的相似性估计方法的表现,并测试了迭代次数对基于相似性传播的记录对相似性估计方法的影响.

本文第1 节定义研究的问题,并概括地介绍研究框架.第2 节介绍两种基本的记录对相似性估计方法.第3节提出基于二分图上相似性传播的记录对相似性估计方法,并通过近似方法降低计算代价.第4 节在两个数据集上评价本文提出的方法,验证其有效性.第5 节介绍相关工作.最后总结全文,并指出下一步可能的研究方向.

1 研究概述

定义1(实体解析).给定一个脏数据集R={r},ER 将描述相同实体的记录分到一组,C={ck|∀ri∈ck,ri∈R∧φ(ri)=ek∧∄rj∈cl∧φ(rj)=ek},其中,φ(⋅)是从记录到实体的映射函数,ek 表示分组ck 对应的实体,cl 为不同于ck 的一个分组.

如图1 所示,ER 传统上是批处理操作,通常包括3 个步骤:分块、相似度计算和匹配决定,其中,前者是可选步骤,后两者是必要步骤[1].

Fig.1 Entity resolution model
图1 实体解析模型

(1)相似性计算

利用记录相似性函数计算两条记录的相似性,通常,相似性表示为[0,1]范围内的数值.两条记录的相似性越大,匹配可能性越大,0 表示不可能匹配,1 表示完全匹配.记录通常包括多个属性,比如,一条个人信息的记录包括姓名、年龄、工作单位、城市、省份和邮编等,不同的属性需要使用不同的相似性函数来计算相似性.记录属性以文本型为主,以数字型为辅.针对文本属性,目前已有多种字符串相似性函数,如TF-IDF、Q-gram、Jaccard、编辑距离等[27].针对数字属性,则需要采用专门的函数进行比较,比如差值、汉明距离等.记录相似性函数选择多个属性,分别选择适合的相似性函数来计算属性相似性,最后将多个属性相似性聚集得到记录相似性,聚集方式包括线性组合、非线性组合等,与匹配决定的策略相关.

(2)匹配决定

根据记录的相似性来决定记录是否匹配有两类方法:分类和聚类.基于分类的匹配决定使用支持向量机(support vector machine,简称SVM)、遗传算法、主动学习和决策树等方法来决定记录对是否匹配[3].一部分分类方法是监督的,需要专家标注大量的训练数据,从而学习出有效的匹配规则(即分类器).还有一部分分类方法的匹配规则是由领域专家定义的,需要较多的领域知识.基于聚类的匹配决定使用MinCut,Markov Clustering 等聚类算法来处理成对的相似性,得到的聚类结果即为实体解析结果.同一类簇表示同一实体,不同类簇表示不同实体[2,28].本文将ER 当作分类问题,认为匹配规则已获得,记作m(*,*),也称为解析函数.如果m(ri,rj)返回真,记录ri,rj 匹配;否则,m(ri,rj)返回假,记录ri,rj 不匹配.

(3)分块

实体解析是两两比较的运算,因此计算代价为平方级.当待处理的脏数据集规模较大时,计算代价将是巨大的,并且包含大量的无用计算.分块是ER 中最常用的减小计算代价的技术[16−26],可以在不影响解析质量的前提下,有效地缩小搜索空间.分块技术将描述可能匹配的记录分到同一块内,将不可能匹配的记录分在不同的块内.分块通过分块键(blocking key,简称BK)来实现,而BK 通过记录属性来构建.当利用一个分块键对数据集进行划分后,拥有相同分块键值(blocking key value,简称BKV)的记录将进入同一块内.同一块内的任意两条记录称为候选匹配记录对或候选对.

定义2(时间约束的实体解析).给定一个脏数据集R,传统的ER 处理R 的时间为TER,给定时间t<<TER,时间约束的ER 将输出尽量多的匹配记录对.给定时间t 内,TC-ER 比传统ER 输出更多的匹配记录对,如果运行到自然终止,那么两者的解析结果是相同的.显然,当解析函数的准确率确定时,一个TC-ER 方法的好坏由时效性和解析的召回率共同决定,可以通过实时召回率来评价.

TC-ER 的流程见算法1.

算法1.TC-ER 框架.