spaCy 第二篇：语言模型

最新推荐文章于 2024-08-01 00:59:26 发布

悦光阴

最新推荐文章于 2024-08-01 00:59:26 发布

阅读量616

点赞数 2

文章标签： python java nlp 正则表达式机器学习

本文链接：https://blog.csdn.net/upluck/article/details/116969658

版权

本文深入探讨了spaCy的语言模型，包括加载不同大小的预训练模型，查看和修改处理管道。介绍了Language管道和分词器管道的工作原理，强调了分词器在文本处理中的关键作用，如特殊规则、前缀后缀匹配。同时，文章讨论了如何扩展语言，自定义分词规则，以适应特定文本处理需求。

摘要由CSDN通过智能技术生成

spaCy处理文本的过程是模块化的，当调用nlp处理文本时，spaCy首先将文本标记化以生成Doc对象，然后，依次在几个不同的组件中处理Doc，这也称为处理管道。语言模型默认的处理管道依次是：tagger、parser、ner等，每个管道组件返回已处理的Doc，然后将其传递给下一个组件。

spaCy使用的语言模型是预先训练的统计模型，能够预测语言特征，对于英语，共有en_core_web_sm、en_core_web_md和en_core_web_lg三种语言模型，还有一种语言模型：en，需要以管理员权限运行以下命令来安装en模型：

python -m spacy download en

使用spacy.load()函数来加载语言模型

spacy.load(name,disable)

其中，name参数是语言模型的名词，disable参数是禁用的处理管道列表，例如，创建en_core_web_sm语言模型，并禁用ner：

nlp = spacy.load("en_core_web_sm", disable=['ner'])

语言模型中不仅预先定义了Language管道，还定义了处理文本数据的处理管道(pipeline)，其中分词器是一个特殊的管道，它是由Language管道确定的，不属于pipeline。

{
  "lang": "en",
  "name": "core_web_sm",
  "description": "Example model for spaCy",
  "pipeline": ["tagger", "parser", "ner"]
}

在加载语言模型nlp之后，可以查看该语言模型预先定义的处理管道，也就是说，处

关注