- 研究背景
- 知识库一般使用RDFs和OWL等语言表示,知识库的对齐工作始于本体匹配(对齐),即框架匹配。
- 本体是指定义并包含了概念、类别、属性的元素的的知识体系。随着知识规模的扩大,知识库中的实例数量增加,知识库融合时对实例融合的研究日益重要。
知识库中的实体对齐更偏重于实例匹配。
- 定义
- 又称 #entity-alignment , #实体匹配 ( #entity-matching ) , #实体解析 ( #entity-Resolution )
- 对于相同或不同的知识库,判断两个实体是否指向同一个物理对象,然后合并相同的实体。
- 评价指标
- 对齐质量
- 评价对齐的准确性和全面性
- 效率
指分区索引技术对候选匹配对的筛选能力和准确性。- 缩减率
- 候选对完整性
- 候选对质量
- 对齐质量
- 困难和挑战
- 计算复杂度
- 对于两个不同的知识库,一般需要将一个知识库中的所有实体与另一个知识库中的所有实体进行比较
- 数据质量
- 由于数据来源、构建方式等的不同,数据在以下几个方面存在不同
- 相同实体不同名称
- 同名指代不同实体
- 实体定义的粒度
- 相同的属性在不同知识库中有不同的判别能力
- 相同的类别在不同知识库中具有不同数量的属性
- 缩写、录入错误、格式等
- 当前多利用数据清洗技术解决此问题
- 由于数据来源、构建方式等的不同,数据在以下几个方面存在不同
- 训练数据获取困难
- URI(ID)
- 实体名称
- OWL:sameAs
即强约束属性,如身份证、Email - OWL:inverse functional property(IFP:逆属性)
- 主动学习和众包
- 计算复杂度
- 技术描述
- 数据预处理
- 与数据挖掘中的数据清洗技术一致
- 由于知识库存在多源异构等问题,所以需要在对齐之前对数据进行清洗,保证数据的质量。
- 对于知识库而言,数据的质量有一定保证,所以往往只需要做简单的格式整理、去停用词即可,而数据质量和容错问题可以在对齐算法中保证
- Data matching:Concepts and techniques forrecord linkage,entity resolution,and duplicate detection
- 分区索引
- 分区索引在数据预处理之后,用于过滤掉不可能匹配的实体对,用于降低计算复杂度,避免随数据库规模二次增长
- 索引键值
关于实体集合中一个或几个属性的函数- 属性值的质量
完整且正确 - 属性值的分布
偏斜的属性值分布导致部分分区匹配对过大 - 区块数量和大小
少量的大分区会产生较多的候选对,相反会丢失匹配对
- 属性值的质量
- #成对实体对齐
- 只考虑实例及其属性相似程度
基于属性相似性,文本相似性 - 传统概率模型
- 将基于属性相似性评分的匹配问题转化为分类问题
分为匹配、可能匹配、不匹配三类 - 基于属性相似性评分函数 ∑ a ∈ A t t r s i m ( e i , e j , a ) \sum_{a \in Attr}sim(e_i,e_j,a) a∈Attr∑sim(ei,ej,a) ,评价两个实例的属性a一致性程度,可以用0/1,也可以用连续实数
- 进一步的,可以为每个不同的属性引入权重。并且结合贝叶斯对属性的相关性进行建模,利用最大估计算法对参数进行估计。
(例如:高频属性的权重较低) - 基于代价优化
- 为不同的代价(相同的实体被分为不等,不同的实体被分为相等)赋予不同的匹配状态,通过一个总体代价公式和贝叶斯公式产生一个最优化决策规则
- A Bayesian decision model for cost optimal record matching
- 将基于属性相似性评分的匹配问题转化为分类问题
- 基于机器学习
- 有监督学习
- 根据实体的属性构建向量,然后使用决策树、SVM集成学习等
- #主动学习 ( #interactive-deduplication )
- 人机交互学习,训练初始训练模型,然后将难以分类的候选询问专家进行分类,进一步训练
- 无监督学习
- 聚类:同一个簇下的实体对应于同一分类
- 实体链接工具:TAILOR
- TAILOR a record linkage toolbox
- 层次图模型框架
- 将组成向量的每个属性字段建模成一个表示属性值匹配与否的隐二元变量,将原有的产生式模型转化为层次化的3层模型,并在约束下进行推理实现对齐
- A Hierarchical Graphical Model for Record Linkage
- 聚类:同一个簇下的实体对应于同一分类
- 有监督学习
- 只考虑实例及其属性相似程度
- #协同对齐
- 又称 #集体对齐 考虑不同实例之间的相互关系
实体关系比较,即结构相似性函数 - 局部实体集体对齐
- 基于简单关系的集体实体对齐,在计算实体相似度时把关联实体的属性纳入计算,也就是说要考虑待匹配实体对的邻居属性集合
- 算法思想
- s i m ( e i , e j ) = α s i m a t t r ( e i , e j ) + ( 1 − α
- 又称 #集体对齐 考虑不同实例之间的相互关系
- 数据预处理
实体对齐调研综述
最新推荐文章于 2024-05-21 16:10:46 发布