spaCy V3.0
文章平均质量分 79
spaCy v3.0突显了全新的transformer-based pipelines,使其准确度达到了先进水平。模型训练现在已经是完全可配置和可扩展的。系统允许你在一个文件中描述整个端到端工作流(end-to-end workflows)...
本专栏将就此展开一系列讨论。
Cxrlyy
主要从事将spaCy的最新技术应用于中文自然语言处理的工作,着眼于电力行业领域相关的NLP、KG(知识图谱)、知识问答等...
E-mail: cxrlyy66@hotmail.com
展开
-
在spaCy V3.0中用自训练词向量来训练文本分类模型
在spaCy V3.0中用自训练词向量来训练文本分类模型前文《spaCy V3.0 文本分类模型训练、评估、打包及数据预处理》中采用的是spaCy提供的预训练词向量—“zh_core_web_lg”。《使用Gensim在专业领域、高相关性、小语料库上训练词向量》在自定义语料上训练出了自己的词向量。如何使用自己训练的词向量来训练文本分类模型?1 保存并转换词向量model = FastText.load('fasttext.bin')model.wv.save_word2vec_format('原创 2021-03-31 16:49:38 · 1424 阅读 · 0 评论 -
spaCy预训练模型与用户自定义模型的合并问题
spaCy预训练模型与用户自定义模型的合并问题如前文《spaCy V3.0 文本分类模型训练、评估、打包及数据预处理》,训练了一个自定义文本分类模型。欲将其与spaCy的中文预训练模型合并使用,发现文本分类准确率没有了。单独使用完全没有问题。mynlp = spacy.load('training/config/model-best')nlp = spacy.load('zh_core_web_sm')nlp.add_pipe('textcat', source=mynlp)doc = nlp(原创 2021-03-31 16:48:29 · 454 阅读 · 0 评论 -
spaCy V3.0 文本分类模型训练、评估、打包及数据预处理
spaCy V3.0 文本分类模型训练、评估、打包及数据预处理1 GPU的使用问题本机显卡:NVIDIA GeForce GT 740M 算力:3.5 对应的pyTorch最高可用版本为1.2 spaCytransformer模型的最低匹配pyTorch版本为1.5 故经过不断尝试,未能使用。(对于算力5.2以上的GPU,如要使用,要下载CUDA 工具包,目前为“cuda_11.1.0_456.43_win10.exe”)2 spacy命令的使用2.1 用法:spacy [OPTIONS]原创 2021-03-29 10:10:37 · 1926 阅读 · 2 评论 -
如何用spaCy训练一个文本分类模型
如何用spaCy训练一个文本分类模型文本分类是将文本分成不同类别的过程。SpaCy通过textcat组件能够方便地进行自定义文本结构化分类。文本分类通常用于对影评、酒店服务评论、新闻数据、文本主题等进行分类,或根据投诉类型对客户支持电子邮件进行分类等情况。对于实际案例,训练自定义文本分类模型能够提高分类准确率。本文将向您展示如何使用spaCy库构建自定义文本分类器。本文的案例是基于《火电厂辅机运行规程》中的小标题进行分类的。目录什么是自定义文本分类器模型?spaCy自定义文本分类入门原创 2021-03-24 10:34:25 · 2340 阅读 · 0 评论 -
spaCy V3.0 基于规则匹配(4)----举例说明基于规则与基于统计模型组件的组合命名实体识别NER
可以通过多种方式组合基于统计模型和基于规则的组件。基于规则的组件可以通过为特定词符(Tokens)预先标记词性、命名实体或句子边界来提高统计模型的准确性。统计模型通常会采用这些预设标记,来提高其他判定的准确性。也可以在统计模型之后使用基于规则的组件来更正常见错误。最后,基于规则的组件可以引用统计模型设置的属性,以实现更抽象的匹配逻辑。例1: 扩充命名实体当使用经过预训练的命名实体识别模型从文本中提取信息时,可能会发现预测的span仅包括你想要查找实体的一部分。发生这种问题,一种情况是,统计模型错误地.翻译 2021-03-05 16:23:57 · 1172 阅读 · 1 评论 -
spaCy V3.0 基于规则匹配(3)----基于规则的命名实体识别NER
EntityRuler是一个spaCy管道组件,可以通过基于patterns字典添加命名实体,能够方便基于规则和统计方式的命名实体识别方法相结合,从而实现功能更强大的spaCy管道。翻译 2021-03-05 13:03:41 · 2441 阅读 · 11 评论 -
spaCy V3.0 基于规则匹配(2)----高效的短语匹配器和依存句法匹配器
1 短语匹配器(PhraseMatcher)1.1 基本用法对于需要匹配大型术语列表的情况,可以通过PhraseMatcher和创建Doc对象来代替词符匹配模式(token patterns),可以获得总体上更高的效率。Doc模式可以包含单个或多个词符。import spacyfrom spacy.matcher import PhraseMatchernlp = spacy.load("zh_core_web_sm")matcher = PhraseMatcher(nlp.vocab)te翻译 2021-03-04 16:35:26 · 1461 阅读 · 1 评论 -
spaCy V3.0 基于规则匹配(1)----基于词例(Token)的匹配
#spaCy V3.0 基于规则匹配(1)----基于词符(Token)的匹配用于发现短语、词符(tokens)、实体部分示例内容是针对中文并结合电力行业领域具体应用原创的翻译 2021-03-03 16:52:20 · 1899 阅读 · 3 评论 -
spaCy V3.0 Tranformer模型WordEmbedding数据详解
spaCy V3.0.0 系列原创 2021-03-02 13:56:20 · 549 阅读 · 0 评论 -
spaCy V3.0 的配置系统说明
spaCy v3.0突显了全新的transformer-based pipelines,使其准确度达到了目前最先进的水平。你可以使用任何预训练的transformer来训练自己的pipelines,甚至可以通过多任务学习在多个组件之间共享一个transformer。模型的训练 现在已经是完全可配置和可扩展的,你可以使用PyTorch、TensorFlow和其他框架定义自己的定制模型。新的spaCy projects系统允许你在一个文件中描述整个端到端工作流( end-to-end workflows),提供原创 2021-03-01 16:57:30 · 645 阅读 · 0 评论 -
spaCy V3.0.0 专业领域中文分词问题
在中文NLP中,首先遇到的就是中文分词问题。与英文不同,英文分词天然使用空格,但中文却没有这样的天然分隔。对于日常通用领域,各分词器的表现还不错,但涉及到特定专业领域,会存在许多专业词汇,需要用到用户自定义词典(user dictionary)。PACKAGELANGUAGETRANSFORMERTAGGERPARSERNERen_core_web_trfEnglishroberta-base97.895.289.9de_dep_原创 2021-02-26 15:26:42 · 1705 阅读 · 0 评论