《知识图谱概念与技术》读书笔记:关系抽取中基于模式的抽取

读完可以回答以下问题:

1. 基于模式的关系抽取定义是什么?

2.基于模式的关系抽取方法及各自的优缺点有哪些?

3.基于模式的关系抽取的质量评估方式有哪些?

1.基于模式的关系抽取通过定义在文本中表达的字符、语法或者语义模式,将模式与文本的匹配作为主要手段,来实现关系实例的抽取。

2.基于模式的关系抽取可以分为:

    来自于专家定义的模式:

        优缺点:质量精良,抽取准确率高。但是成本高昂,召回率低。

        1)基于字符的模式:

       表达特定关系的字符模式同时是一组正则表达式。对于模式和文本的相似性有较高的要求。当模式具有一定的泛化模式时,容易引入更多的错误。

2)基于语法的模式:

      基于语法的模式能够增强模式的表达能力,语法包括词法(引入词性标签等)和句法。这种模式构造容易,且有较好的准确率。

3)基于语义的模式:

       优化语法模式的一种重要手段就是引入语义元素(如概念),可以更加精准地表达模式适配的范围,从而增强模式的描述能力,从而实现高精度抽取。

       引入概念的语义模式依赖于比较完善的概念图谱。但随着概念图谱的普及,这一模式也有着更加广泛的应用。

    自动化模式抽取:

       自举法(Bootstrapping):“模式抽取+实体抽取”循环迭代,这个过程也称为“滚雪球(Snowball)”

       步骤一:为该类关系类型标注少量初始种子实体对。

       步骤二:找到实体对在文本语料库中所出现的句子集合。

       步骤三:基于这些句子抽取表达关系的模式(模式抽取)。

       步骤四:是用新发现的模式去语料库中抽取新的实体对(实体抽取)。

       自举法的代表成果:DIPRE系统,Snowball系统,KnowItAll系统

       优缺点:自动,高效。但质量不容易保证,例如:模式容易出现语义漂移,互联网的海量语料中存在很多噪声。

3.基于模式抽取的质量评估

     质量评估通常从两个角度进行判断:实例与模式的匹配程度,以及模式本身的置信度

    在衡量实例和模式匹配时,完全匹配少之又少。因此,通常使用模糊匹配的度量指标Jaccard相似度、编辑距离、加权匹配等分数。

   模式本身的置信度可以通过在实际匹配中的表现来评估。通常使用准确率作为置信度的度量。

   

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值