使用BERT的tokenizer替换spacy的tokenizer

最新推荐文章于 2023-12-13 14:41:42 发布

NecerLiXin

最新推荐文章于 2023-12-13 14:41:42 发布

阅读量194

点赞数

文章标签： bert 自然语言处理

本文链接：https://blog.csdn.net/NecerLiXin/article/details/132696320

版权

使用BERT的tokenizer替换spacy的tokenizer

spacy是支撑自己编写tokenzier的，可以非常简单的将tokenizer换成BERT的tokenizer

写一个类继承spacy.tokenizer.Tokenizer，自定义分词规则的时候传入BERT的tokenizer

class CustomTokenizer(Tokenizer):
    def __init__(self,vocab,tokenizer):  
        super().__init__(vocab)
        # 自定义分词规则  
        self.bert_tokenizer = tokenizer
    def __call__(self, text):  
        # 自定义分词逻辑  
        tokens = self.bert_tokenizer.tokenize(text)  
        doc = spacy.tokens.doc.Doc(self.vocab,tokens)  
        return doc

导入spacy模型、BERT的tokenizer，实例化一个spacy的Tokenizer类并替换spacy的tokenizer

nlp = spacy.load('en_core_web_lg')
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
tokenizer = CustomTokenizer(nlp.vocab,bert_tokenizer)
nlp.tokenizer = tokenizer

测试

text = "I am spiderman."
doc = nlp(text)
for token in doc:
    print(token.text)
'''output
i
am
spider
##man
.
'''

优惠劵

NecerLiXin

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
使用BERT的tokenizer替换spacy的tokenizer

spacy是支撑自己编写tokenzier的，可以非常简单的将tokenizer换成BERT的tokenizer。
复制链接

扫一扫

spacy en tokenizer: en_core_web_sm-2.3.0.tar.gz

06-17

如果下面这条命令执行失败的话 ------------ from torchtext import data data Field(tokenize=spacy", tokenizer_Language=r'en) ------------ 可以先下载资源包, 解压，然后把命令换成下面这种 data Field(tokenize="Spacy', tokenizer_Language=r"F: \ tmp Men_core -web_sm-2.3.0\en_core_web_sm\en___sm-2 3.01)

Torchtext中使用spaCy作为Tokenizer加载IMDB数据集速度太慢的问题

weixin_43390599的博客

05-17

752

https://github.com/pytorch/text/issues/481 这个issue提到了，我这边的解决方法是把语言模型换成小的 # tokenizer_language 使用sm大小，要不然加载IMDB用时太久！ TEXT = data.Field(tokenize = 'spacy', tokenizer_language = 'en_core_web_sm', include_lengths = True) LA

1 条评论您还未登录，请先登录后发表或查看评论

Spacy的依存分析

Puzzle的博客

04-02

7339

模型上次使用spacy时，官网提供的模型有en_core_web_sm、en_core_web_md和en_core_web_lg，现在发现又提供了一种en_core_web_trf。根据说明解释 trf 是larger and slower pipeline, but more accurate，而 sm是faster and smaller pipeline, but less accurate [来源] 导入方式也增加了一种 # 方式一 import spacy nlp =...

PyTorch入门-自然语言分类任务

Jocab_jl的博客

07-07

2581

一. 情感分析 1. 准备数据 TorchText中的一个重要概念是Field。Field决定了你的数据会被怎样处理。在我们的情感分类任务中，我们所需要接触到的数据有文本字符串和两种情感，“pos"或者"neg”。 Field的参数制定了数据会被怎样处理。使用TEXT field来定义如何处理电影评论，使用LABEL field来处理两个情感类别。 TEXT field带有tokenize=‘spacy’，这表示我们会用spaCy tokenizer来tokenize英文句子。如果我们不特

Spacy分词php,spaCy 第二篇：语言模型

weixin_36135382的博客

03-20

651

spaCy处理文本的过程是模块化的，当调用nlp处理文本时，spaCy首先将文本标记化以生成Doc对象，然后，依次在几个不同的组件中处理Doc，这也称为处理管道。语言模型默认的处理管道依次是：tagger、parser、ner等，每个管道组件返回已处理的Doc，然后将其传递给下一个组件。一，加载语言模型spaCy使用的语言模型是预先训练的统计模型，能够预测语言特征，对于英语，共有en_core_...

spaCy 第二篇：语言模型

albh81462的博客

05-13

1189

spaCy处理文本的过程是模块化的，当调用nlp处理文本时，spaCy首先将文本标记化以生成Doc对象，然后，依次在几个不同的组件中处理Doc，这也称为处理管道。语言模型默认的处理管道依次是：tagger、parser、ner等，每个管道组件返回已处理的Doc，然后将其传递给下一个组件。一，加载语言模型 spaCy使用的语言模型是预先训练的统计模型，能够预测语言特征，对于英语，...

大数据分析Python中spaCy文本分类使用教程

yuuEva的博客

10-15

1990

　　文本是极其丰富的信息源。人们每分钟都会发送数亿封新电子邮件和短信。确实有大量的文本数据等待挖掘见解。但是，想要从所有文本数据中收集含义的数据科学家面临着一个挑战：由于它以非结构化形式存在，因此难以分析和处理。　　在大数据分析Python中spaCy文本分类使用教程中，我们将研究如何使用有用的Python包spaCy(文档)将所有这些非结构化文本数据转换为对分析和自然语言处理更有用的内容。　　完成此操作后，我们将能够从文本数据中得出有意义的模式和主题。这在多种数据科学应用程序中很有用：垃圾邮件过滤

使用 Python+spaCy 进行简易自然语言处理

weixin_34395205的博客

10-16

1290

本文讲的是使用 Python+spaCy 进行简易自然语言处理，原文地址：Natural Language Processing Made Easy – using SpaCy (in Python) 原文作者：Shivam Bansal 译文出自：掘金翻译计划本文永久链接：github.com/xitu/gold-m… 译者：l...

tokenizer简介

最新发布

IT届的小学生

12-13

1225

文章目录简介spaCy特性：系统环境与版本安装应用示例参考文献简介 spaCy spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。因此它是一个非常快的库。它建立在最新的研究基础上，从设计的第一天起就被用于实际产品中。 spaCy 自带预训练的管道，目前支持 60 多种语言的标记化和训练。它具有最先进的速度和神经网络模型，可用于标记、解析、命名实体识别、文本分类等，使用 BERT 等预训练的变换器进行多任务学习，以及生产就绪的训练系统和简单的模型打包、部署和工作流管理。

spacy-sentence-bert:用于SpaCy的句子转换器模型

05-05

Sentence-BERT的空间该程序包直接在spaCy中包装（也称为）。您可以将任何提供的向量替换为针对语义相似性进行了专门调整的向量。 ... 您可以使用pip从GitHub安装独立的spaCy软件包。如果安装独

bert情感分类中用tokenizer实现文本预处理

01-03

在pytoch中，实现利用预训练BertTokenizer对影评数据集IMDB进行预处理，得到Bert模型所需输入样本特征。利用torch.utils.data将预处理结果打包为数据集，并利用pickle将数据集序列化保存至本地文件中。

Python库 | bert_tokenizer-0.1.1.tar.gz

04-06

资源分类：Python库所属语言：Python 资源全名：bert_tokenizer-0.1.1.tar.gz 资源来源：官方安装方法：https://lanzao.blog.csdn.net/article/details/101784059

使用bert进行文本情感分类的源码

09-24

使用bert进行文本情感分类的源码

KeyBERT:使用BERT进行最少的关键字提取

03-19

KeyBERT是一种最小且易于使用的关键字提取技术，它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。相应的媒体帖子可以在找到。目录 2.1。2.2。2.3。2.4。2.5。 1.关于项目尽管已经有很多方法可用于...

tokenizer，nltk，spacy

weixin_51207423的博客

10-02

padding 是否需要用0填充（attention_mask中为0的不参与计算）return_tensor 可以指定返回pytorch的类型。truncation 截断，超过最长的不处理。max_length 处理的最大长度。NLTK包（英文分词）

tokenizers总结

noobiee的博客

09-19

644

"annoying"并"ly"作为独立的子词会更频繁地出现，同时，"annoyingly"是由"annoying"和"ly"这两个子词的复合含义构成的复杂含义，这在诸如土耳其语之类的凝集性语言中特别有用，在该语言中，可以通过将子词串在一起来形成（几乎）任意长的复杂词。将word-level的分词方法改成 char-level的分词方法，对于英文来说，就是字母界别的，比如 "China"拆分为"C","h","i","n","a"，对于中文来说，"中国"拆分为"中"，"国"，

python自然语言处理之spacy详解

weixin_44762483的博客

12-12

9409

spaCy简介 spaCy号称工业级Python自然语言处理（NLP）软件包，可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画，以及词嵌入向量的计算和可视化等。 spaCy模块有4个非常重要的类： Doc：Doc对象由Tokenizer构造，然后由管道的组件进行适当的修改。doc对象包含Token的序列和Token的注释（Annotation）； Span：Span对象是Doc对象的一个切片； Token：在自然语言处理中，把一个单词、一个标点符号、一个空格等叫做一个token； Vocab（voc

bert_tokenizer.tokenize

07-29

所以，对于问题中的"bert_tokenizer.tokenize"，可以使用BertTokenizer的tokenize方法来实现。具体操作如下： ```python from transformers import BertTokenizer # 初始化BertTokenizer tokenizer = ...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交