自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

翻译 基于spaCy的领域命名实体识别

本文原本是作为自然语言处理任务之命名实体识别(NER)的教材。NER的目的是从非结构化文本中提取结构化数据,即特定的实体,如人名、地名、日期等。到目前为止,从使用现成的框架到自己开发特定领域的解决方案,还没有一种免费的、广泛的关于NER主题和方法的处理方法。本文使用几个不同的数据集来演示NER的使用方法和功用。这些章节与嵌入相关章节的YouTube视频一起使用。完整的播放列表见:[https://www.youtube.com/channel/UC5vr5PwcXiKX_-6NTteAlXw]

2021-02-22 11:59:37 4391 7

原创 在问答系统中,按照特定模式自动生成用户问题数据集

在问答系统中,按照特定模式自动生成用户问题数据集对于一个冷启动自动问答项目,如何按照给定模式生成大量问题数量,并结合给定问题分类,以形成训练数量,肯定是开发者必须要面临的一个问题。本文结合热电厂《辅机运行规程》常见问题模式,给出一个解决思路,并展示了训练数据生成的结果。1 根据专业领域特点给出问题模式对于热电厂《辅机运行规程》自动问答系统,一个典型任务就是,用户询问系统关于启动、停止、运行中的监视调整、日常操作、启动前的检查试验等的步骤及规定等。但由于在实际生产应用中,各系统、设备通常会有多种

2021-04-02 15:22:16 471

原创 在spaCy V3.0中用自训练词向量来训练文本分类模型

在spaCy V3.0中用自训练词向量来训练文本分类模型前文《spaCy V3.0 文本分类模型训练、评估、打包及数据预处理》中采用的是spaCy提供的预训练词向量—“zh_core_web_lg”。《使用Gensim在专业领域、高相关性、小语料库上训练词向量》在自定义语料上训练出了自己的词向量。如何使用自己训练的词向量来训练文本分类模型?1 保存并转换词向量model = FastText.load('fasttext.bin')model.wv.save_word2vec_format('

2021-03-31 16:49:38 1371

原创 spaCy预训练模型与用户自定义模型的合并问题

spaCy预训练模型与用户自定义模型的合并问题如前文《spaCy V3.0 文本分类模型训练、评估、打包及数据预处理》,训练了一个自定义文本分类模型。欲将其与spaCy的中文预训练模型合并使用,发现文本分类准确率没有了。单独使用完全没有问题。mynlp = spacy.load('training/config/model-best')nlp = spacy.load('zh_core_web_sm')nlp.add_pipe('textcat', source=mynlp)doc = nlp(

2021-03-31 16:48:29 422

原创 使用Gensim在专业领域高相关性小语料库上训练词向量

使用Gensim在专业领域、高相关性、小语料库上训练词向量解决使用Gensim默认词向量训练参数得到的词向量过分集中的问题。1 语料背景采用热电厂《辅机运行规程》,其特点如下:语料规模:不到7000句语料特点:句法单一,相关性强,专业词语多比如:辅机冷却水系统投运闭式冷却水系统的投运主机手动盘车投运2 语料预处理采用用户自定义词典,使得分词结果符合要求。本例采用spaCy-pkuseg。由于训练窗口的限制,去掉分词数小于2的文本。再用gensim的preprocess

2021-03-30 13:57:38 350

原创 spaCy V3.0 文本分类模型训练、评估、打包及数据预处理

spaCy V3.0 文本分类模型训练、评估、打包及数据预处理1 GPU的使用问题本机显卡:NVIDIA GeForce GT 740M 算力:3.5 对应的pyTorch最高可用版本为1.2 spaCytransformer模型的最低匹配pyTorch版本为1.5 故经过不断尝试,未能使用。(对于算力5.2以上的GPU,如要使用,要下载CUDA 工具包,目前为“cuda_11.1.0_456.43_win10.exe”)2 spacy命令的使用2.1 用法:spacy [OPTIONS]

2021-03-29 10:10:37 1789 2

原创 如何用spaCy训练一个文本分类模型

如何用spaCy训练一个文本分类模型文本分类是将文本分成不同类别的过程。SpaCy通过textcat组件能够方便地进行自定义文本结构化分类。文本分类通常用于对影评、酒店服务评论、新闻数据、文本主题等进行分类,或根据投诉类型对客户支持电子邮件进行分类等情况。对于实际案例,训练自定义文本分类模型能够提高分类准确率。本文将向您展示如何使用spaCy库构建自定义文本分类器。本文的案例是基于《火电厂辅机运行规程》中的小标题进行分类的。目录什么是自定义文本分类器模型?spaCy自定义文本分类入门

2021-03-24 10:34:25 2162

翻译 spaCy V3.0 基于规则匹配(4)----举例说明基于规则与基于统计模型组件的组合命名实体识别NER

可以通过多种方式组合基于统计模型和基于规则的组件。基于规则的组件可以通过为特定词符(Tokens)预先标记词性、命名实体或句子边界来提高统计模型的准确性。统计模型通常会采用这些预设标记,来提高其他判定的准确性。也可以在统计模型之后使用基于规则的组件来更正常见错误。最后,基于规则的组件可以引用统计模型设置的属性,以实现更抽象的匹配逻辑。例1: 扩充命名实体当使用经过预训练的命名实体识别模型从文本中提取信息时,可能会发现预测的span仅包括你想要查找实体的一部分。发生这种问题,一种情况是,统计模型错误地.

2021-03-05 16:23:57 1123 1

翻译 spaCy V3.0 基于规则匹配(3)----基于规则的命名实体识别NER

EntityRuler是一个spaCy管道组件,可以通过基于patterns字典添加命名实体,能够方便基于规则和统计方式的命名实体识别方法相结合,从而实现功能更强大的spaCy管道。

2021-03-05 13:03:41 2358 11

翻译 spaCy V3.0 基于规则匹配(2)----高效的短语匹配器和依存句法匹配器

1 短语匹配器(PhraseMatcher)1.1 基本用法对于需要匹配大型术语列表的情况,可以通过PhraseMatcher和创建Doc对象来代替词符匹配模式(token patterns),可以获得总体上更高的效率。Doc模式可以包含单个或多个词符。import spacyfrom spacy.matcher import PhraseMatchernlp = spacy.load("zh_core_web_sm")matcher = PhraseMatcher(nlp.vocab)te

2021-03-04 16:35:26 1347 1

翻译 spaCy V3.0 基于规则匹配(1)----基于词例(Token)的匹配

#spaCy V3.0 基于规则匹配(1)----基于词符(Token)的匹配用于发现短语、词符(tokens)、实体部分示例内容是针对中文并结合电力行业领域具体应用原创的

2021-03-03 16:52:20 1777 3

原创 spaCy V3.0 Tranformer模型WordEmbedding数据详解

spaCy V3.0.0 系列

2021-03-02 13:56:20 526

原创 spaCy V3.0 的配置系统说明

spaCy v3.0突显了全新的transformer-based pipelines,使其准确度达到了目前最先进的水平。你可以使用任何预训练的transformer来训练自己的pipelines,甚至可以通过多任务学习在多个组件之间共享一个transformer。模型的训练 现在已经是完全可配置和可扩展的,你可以使用PyTorch、TensorFlow和其他框架定义自己的定制模型。新的spaCy projects系统允许你在一个文件中描述整个端到端工作流( end-to-end workflows),提供

2021-03-01 16:57:30 602

原创 spaCy V3.0.0 专业领域中文分词问题

在中文NLP中,首先遇到的就是中文分词问题。与英文不同,英文分词天然使用空格,但中文却没有这样的天然分隔。对于日常通用领域,各分词器的表现还不错,但涉及到特定专业领域,会存在许多专业词汇,需要用到用户自定义词典(user dictionary)。PACKAGELANGUAGETRANSFORMERTAGGERPARSERNERen_core_web_trfEnglishroberta-base97.895.289.9de_dep_

2021-02-26 15:26:42 1648

原创 《图算法》中Graph Data Science代替Graph Algorithms (Neo4j)代码(第四章)

第四章 GDS代码首先要创建内存数据投影,Graph Data Science使用内存数据库。以下代码中的’myGraph’就是GDS中要求的graphName。call gds.graph.create("myGraph","Place","EROAD") YIELD graphName, nodeCount, relationshipCount;Shortest Path with Neo4j原代码MATCH (source:Place {id: "Amsterdam"}),

2020-09-15 17:01:11 1211 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除