《知识图谱概念与技术》读书笔记:概念图谱中的isA关系

读完可以回答以下问题:

1.概念图谱构建的要素是什么?如何构建优质的概念图谱?

2.概念图谱中isA关系的抽取方法有哪些?实际应用较多的方法有哪些?实际应用时抽取过程是怎样的?

3.中文概念图谱的构建过程是怎样的?典型的中文概念图谱实例介绍

1.概念图谱构建的要素是什么?如何构建优质的概念图谱?

知识图谱的规模质量是构建知识图谱的重要因素。概念图谱作为一种重要的知识图谱也是如此。

如何构建大规模高质量的概念图谱呢?

从大规模的文本中自动抽取isA关系,进而构建大规模概念图谱。如何提高质量是大规模概念图谱的核心问题,目前无法给出一个统一的答案

2. 概念图谱中isA关系的抽取方法有哪些?实际应用较多的方法有哪些?实际应用时抽取过程是怎样的?

1)isA关系抽取的方法

2)实际应用较多的方法为

           基于模式的方法和基于在线百科的方法

3)基于在线百科的方法抽取过程

        基于在线百科的方法抽取准确率较高,但是在线百科的标签规模有限很难形成大规模的概念图谱。

         以YAGO为例基于模式方法构建概念图谱:

        第一步:概念标签识别

                  数据源是维基百科数据,其中标签分为:概念型标签、主题型标签、属性型标签以及管理型标签

  •                  概念型标签:描述实体所属的类型(多用,核心标签)       例如:American male film actors
  •                 主题型标签:描述实体所述的主题 (多用)      例如:Chemistry
  •                 属性型标签:描述实体的相关属性(少用)        例如:1979 births
  •                 管理型标签:用于管理维基百科词条 (少用)     例如:Articles with unsourced statements

                识别方法:浅层语言分析

                       标签短语的核心词

                       复数被识别为概念标签  例如:American male film actors

                      单数被识别为主题标签   例如:Chemistry

                     属性型标签和管理型标签识别使用:人工或基于规则的方式

        第二步:概念层级体系构建

       

4)基于模式的方法抽取过程

        最常见的isA关系的语法模式是Hearst模式

典型的Hearst模式
模式例子
NP such as {NP,}* {(or|and)} NPcompanies such as IBM,Apple
NP {,} including {NP,} *  {(or|and)} NPalgorithms including SVM,LR and RF
NP{,NP}* {,} or other NPanimals,dogs, or other cats
NP{,NP}* {,} and other NPrepresentatives in North America,Europe,Japan,China, and other countries
NP{,} especially {NP,}* {(or|and)} NPdeveloping countries,especially China and India

    缺陷:

   1.模式前后的噪声词会导致抽取错误。 例如:animals other than dogs such as cats  => cats is dogs

   2.分词错误会导致错误。 例如:algorithms including SVM,LR and RF =》 LR and RF是一个实体还是两个实体

   缺陷解决:

   基于统计频次,信任高频次模式的方式提高准确率和召回率

3.中文概念图谱的构建过程是怎样的?典型的中文概念图谱实例介绍

典型的中文概念图谱实例:大词林和CN-Probase

1)大词林

        方法:抽取+排序

        步骤:1)基于“搜索引擎搜索实体、从搜索结果、在线百科类别标记以及实体核心库”获得输入实体的上位词,从而得到候选上位词       =》提高覆盖率,提高召回率

                  2)基于上位词排序模块使用启发式规则对候选上位词进行排序   =》提高准确率 

                  3)从而得到实体的最终上位词

2)CN-Probase

         方法:生成+验证

         步骤:1)生成模块:从中文在线百科的多个数据源获取上下位关系。方法:短语分割获得上位词,深度生成使用编码器和解码器模型,谓词(职业,公司性质等)发现,使用标签进行直接抽取=》提高覆盖率

                    2)验证模块:基于启发式规则发现错误isA关系。方法:互斥概念的验证、命名实体识别(上位词不可能是命名实体)的验证和基于语法规则的验证(人工定义一些规则)=》提高准确率 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值