实体对齐调研综述

  • 研究背景
    • 知识库一般使用RDFs和OWL等语言表示,知识库的对齐工作始于本体匹配(对齐),即框架匹配。
    • 本体是指定义并包含了概念、类别、属性的元素的的知识体系。随着知识规模的扩大,知识库中的实例数量增加,知识库融合时对实例融合的研究日益重要。
      知识库中的实体对齐更偏重于实例匹配。
  • 定义
    • 又称 #entity-alignment , #实体匹配 ( #entity-matching ) , #实体解析 ( #entity-Resolution )
    • 对于相同或不同的知识库,判断两个实体是否指向同一个物理对象,然后合并相同的实体。
  • 评价指标
    • 对齐质量
      • 评价对齐的准确性和全面性
    • 效率
      指分区索引技术对候选匹配对的筛选能力和准确性。
      • 缩减率
      • 候选对完整性
      • 候选对质量
  • 困难和挑战
    • 计算复杂度
      • 对于两个不同的知识库,一般需要将一个知识库中的所有实体与另一个知识库中的所有实体进行比较
    • 数据质量
      • 由于数据来源、构建方式等的不同,数据在以下几个方面存在不同
        • 相同实体不同名称
        • 同名指代不同实体
        • 实体定义的粒度
        • 相同的属性在不同知识库中有不同的判别能力
        • 相同的类别在不同知识库中具有不同数量的属性
        • 缩写、录入错误、格式等
      • 当前多利用数据清洗技术解决此问题
    • 训练数据获取困难
      • URI(ID)
      • 实体名称
      • OWL:sameAs
        即强约束属性,如身份证、Email
      • OWL:inverse functional property(IFP:逆属性)
      • 主动学习和众包
  • 技术描述
    • 数据预处理
    • 分区索引
      • 分区索引在数据预处理之后,用于过滤掉不可能匹配的实体对,用于降低计算复杂度,避免随数据库规模二次增长
      • 索引键值
        关于实体集合中一个或几个属性的函数
        • 属性值的质量
          完整且正确
        • 属性值的分布
          偏斜的属性值分布导致部分分区匹配对过大
        • 区块数量和大小
          少量的大分区会产生较多的候选对,相反会丢失匹配对
    • #成对实体对齐
      • 只考虑实例及其属性相似程度
        基于属性相似性,文本相似性
      • 传统概率模型
      • 基于机器学习
        • 有监督学习
          • 根据实体的属性构建向量,然后使用决策树、SVM集成学习等
        • #主动学习 ( #interactive-deduplication )
          • 人机交互学习,训练初始训练模型,然后将难以分类的候选询问专家进行分类,进一步训练
        • 无监督学习
    • #协同对齐
      • 又称 #集体对齐 考虑不同实例之间的相互关系
        实体关系比较,即结构相似性函数
      • 局部实体集体对齐
        • 基于简单关系的集体实体对齐,在计算实体相似度时把关联实体的属性纳入计算,也就是说要考虑待匹配实体对的邻居属性集合
        • 算法思想
          • s i m ( e i , e j ) = α s i m a t t r ( e i , e j ) + ( 1 − α
  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值