spaCy V3.0 基于规则匹配(1)----基于词例(Token)的匹配

本文介绍了spaCy V3.0中的基于Token的规则匹配功能,包括添加模式、pattern语法、正则表达式、数量操作符和通配符的使用。Matcher允许对Token属性进行抽象匹配,可用于复杂模式,而PhraseMatcher适用于大型术语列表匹配。文章强调了在编写模式时要考虑spaCy的Token,并讨论了为什么Matcher不支持所有Token属性。
摘要由CSDN通过智能技术生成

#spaCy V3.0 基于规则匹配(1)----基于词符(Token)的匹配

用于发现短语、词符(tokens)、实体

相比于在普通文本上使用正则表达式,spaCy基于规则的匹配引擎和组件不仅可以找到要查找的单词和短语,还可以访问文档中的词符(tokens)及其关系。这意味着可以轻松地访问和分析被查找词符(tokens)周围的词符,将spans合并为单个Token,或者向doc.ents中的命名实体添加条目.

在介绍spaCy基于规则匹配的内容之前,首先回答两个问题。

  • 1 使用规则还是训练模型?
    .
    对于复杂的任务,通常更好的做法是训练一个统计实体识别模型。然而,统计模型需要大量训练数据,因此,在许多情况下,基于规则的方法更为实用,尤其对一个新开始的项目。可以使用基于规则的方法作为数据收集过程的一部分,采用“自举法”启动统计模型。
    .
    如果希望系统能够基于现有示例类推到更大范围时,那么训练模型是非常有用的。要是有局部上下文线索,效果更好。例如,如果你试图发现人名或公司名,则此应用会得益于统计命名实体识别模型。
    .
    如果要从数据中找到的示例数量是有限的,或这些示例具有非常清晰、结构化模式,可以使用标记规则或正则表达式来表示,那么基于规则的系统就是一个不错的选择。例如,使用纯基于规则的方法,或许就能够很好地处理国家名称、IP地址或URL。
    .
    当然也可以将这两种方法结合起来,并使用规则来改进统计模型,以处理非常具体的案例提高准确性。有关详细信息,请参见基于第4节《基于规则的实体识别》。

  • 2 使用词符匹配器(Token Mather)还是短语匹配器(PhraseMatcher)?
    .
    如果你已经有了一个由单个或多个Token短语组成的大型术语列表或地名录,并且希望在数据中找到其准确实例,那么PhraseMatcher非常有用。
    .
    Matcher(Token Mather)没有PhraseMatcher快,因为它是对各个Token属性进行比较。但是,它能够对所需查找的Tokens编写非常抽象的表示,比如:词汇属性、模型预测的语言特征、运算符、集合操作和丰富的比较操作。例如,你可以找到一个名词,后跟一个动词“爱”或“喜欢”,再跟一个或不跟限定词,以及另一个至少10个字符长的Token。

1 基于词符(Token)的匹配

spaCy提供了一个很有特色的Token规则匹配引擎—Matcher,类似于正则表达式。这些规则可以引用Token注释(例如,Token的text、tag_),以及标志(例如,IS_PUNCT)。此规则匹配器还允许传入一个自定义回调函数来对匹配项进行操作。例如,合并实体和应用自定义标签。您还可以将模式与实体id相关联,进行一些基本的实体链接或消除歧义任务。对于大型术语列表匹配,可以使用PhraseMatcher,它可以使用Doc对象作为

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值