bert的tokenizer.encode_plus使用

hsz779

已于 2022-07-29 19:20:55 修改

阅读量2.4k

点赞数 1

文章标签： bert 人工智能深度学习

于 2022-06-16 09:16:33 首次发布

本文链接：https://blog.csdn.net/happysuzhe/article/details/125309340

版权

encoded_dict = tokenizer.encode_plus(
                a,
                b,
                max_length=max_seq_length,
                return_overflowing_tokens=True,
                padding="max_length",
                stride=0,
                truncation="only_second",
                return_token_type_ids=True
            )
# 输出结果结构: [cls] a [seq] b [seq]
# a和b 可以是 id和字符 的任意组合，如：“a是id列表，b是字符列表”；

# max_length 最大长度 一般为512；

# return_overflowing_tokens 这个属性在分块中很重要，可以输出截断后剩余部分，
# 和truncation配合使用可以选择截断 a和b 中哪一个；

# padding 用于0补全

# stride 重叠部分长度 如：abc和bcd的重叠部分长度为2

# truncation 这个属性选择截断方式，如‘only_second’表示只截断第二个序列b，其他的种类相似；

# return_token_type_ids 表示是否输出type ids。

return_overflowing_tokens 属性还可以用来检查 a和b 的组合长度是否超过512，使用：

assert encoded_dict['overflowing_tokens'] == []

return_overflowing_tokens 还可以进行循环分块，只需用其更新b：

b = encoded_dict['overflowing_tokens']

优惠劵

hsz779

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
bert的tokenizer.encode_plus使用

bert的tokenizer.encode_plus使用。
复制链接

扫一扫

解决Tensorflow2.0 tf.keras.Model.load_weights() 报错处理问题

09-16

主要介绍了解决Tensorflow2.0 tf.keras.Model.load_weights() 报错处理问题，具有很好的参考价值，希望对大家有所帮助。一起跟随想过来看看吧

bert-master.zip_Python__Python_

08-09

BERT pretrained_model

参与评论您还未登录，请先登录后发表或查看评论

BERt.rar_gray_qam

09-23

Bit Error Rate for 16-QAM modulation using Gray modulation mapping

bert第三篇：tokenizer

热门推荐

iterate7的博客

10-08

3万+

文章目录tokenizer基本含义bert里涉及的tokenizerBasicTokenzerwordpiecetokenizerFullTokenzierPretrainTokenizer关系图实操如何训练训练自己中文的tokenizer总结引用 tokenizer基本含义 tokenizer就是分词器；只不过在bert里和我们理解的中文分词不太一样，主要不是分词方法的问题，bert里基本都是最大匹配方法。最大的不同在于“词”的理解和定义。比如：中文基本是字为单位。英文则是subword的概念，例

HuggingFaceBERT tokenizer.encode笔记

weixin_42899049的博客

10-22

2768

鉴于之前确实没有好好阅读官方文档和论文，对于berttokenizer的截断和填充是用列表进行操作，且是直接补0。其实tokenizer.encode有填补和截断的操作目录 encoder参数 import encoder参数 encode(text: Union[str, List[str], List[int]], text_pair: Union[str, List[str], List[int], NoneType] = None, add_special_tokens: b.

bert实现词嵌入及其参数详解

David_house的博客

06-02

2761

last_hidden_state 代表了BERT模型对输入文本的编码表示，其维度为[batch_size, sequence_length, hidden_size]，其中，batch_size表示批处理中的样本数量；sequence_length表示每个样本的序列长度，即输入文本的令牌数量；hidden_size表示BERT模型的隐藏状态的维度大小，通常是预训练模型的参数之一

Transformers 源码阅读之BertTokenizerFast分词模型

羊城迷鹿的博客

07-01

6447

从bert-base-chinese下载预训练语言模型及其他词表，由于使用的是pytorch，因此下载即可。如果要使用英文模型，就下载能区分大小写的或者是不能区分大小写的，对于uncased，初始化时必须要把lower设为true。在深入模型细节之前，我们先用一个简单的例子看一看BertTokenizerFast究竟是用来干什么的，需要什么样的输入，又会给出怎样的输出。...........................

tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介绍及其区别

hello world

11-08

8015

tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介绍及其区别

tokenizer函数的参数truncation=True是什么意思

kewei chen

04-22

3369

如果 truncation=True,那么 tokenizer 会根据几个规则进行截断:1. 首先删除输入序列的中间部分,只保留前后 max_length/2 的标记。2. 然后继续删除前面或后面的标记,直到保留的标记数量等于 max_length。3. 在截断的过程中,tokenizer 会尽量保留输入序列的结构,不截断词与词之间的关系。所以,truncation=True 的作用就是允许我们的 tokenizer 进行这样的截断操作,这样我们就可以将任意长度的输入文本处理成我们想要的长度了。

关于Tokenizer的用法

最新发布

星星超幸运的博客

09-20

394

input_ids = dic['input_ids'] # [bs, max_length] 添加了开头101和结尾102。

训练数据集处理

qwer123456u的博客

04-27

1407

训练数据集处理

【学习笔记】李宏毅2021春机器学习课程第7.1节：自监督学习（一）

Harryline的博客

08-01

615

文章目录1 什么是自监督学习2 训练 BERT 的方法一：Masking Input3 训练 BERT 的方法二：Next Sentence Prediction4 BERT 的应用案例解析4.1 情感分析4.2 词性标记4.3 自然语言推断4.4 基于信息抽取的问答5 BERT 的训练并不容易6 BERT 胚胎学 1 什么是自监督学习首先我们来回忆一下监督学习，当我们做监督学习时，我们只有一个模型，这个模型的输入是x，输出是y。假设我们做情感分析，那就是让机器阅读一篇文章，而机器需要对这篇文章进行

bert.zip_BERT_Bert开源工具_NLP_essential83k

09-22

bert是目前为止在NLP领域表现最好的一款开源工具，拥有不同规模的预训练模型，当你想要完成某项下游任务时，仅仅需要对bert 提供的预训练模型进行微调即可，大大简化了自己完成部分的架构负责度，而且表现良好。...

BERT.ZIP_BER VHDL_rs485_rs485 vhdl

09-14

BER test for asynchronous interface, e.g.RS485, RS232. selectable 2^11 or 2^15.

Pytorch——Tokenizers相关使用

04-13

1630

在NLP项目中，我们常常会需要对文本内容进行编码，所以会采tokenizer这个工具，他可以根据词典，把我们输入的文字转化为编码信息，例如我们本文信息是“我爱你”将转化为[2,10,3]，其中”我“在字典里对应数字2，”爱“在字典里对应数字10，经过转化之后的文本，就可以作为模型的输入了。

如何对文字进行数字编码利用bert

04-28

283

是注意力掩码，以便在序列长度不同时进行填充。需要注意的是，如果使用其他预训练模型，语言对应的分词器不一定相同。batch = [ "我喜欢红色", "你喜欢蓝色吗", "我们都喜欢绿色，不是吗"]是每个句子的token id序列，表示句子所属的句子对，

Tokenizer使用（以BertTokenizer为例）

Blue&boke

06-29

1128

【代码】Tokenizer使用（以BertTokenizer为例）

huggingface中Bert模型的简单使用

qq_43422201的博客

08-01

5803

huggingface的Bert模型的简单使用，内含有BertConfig，BertTokenizer，BertModel的使用

transformers的分词工具BertTokenizer encode_plus参数

Diobld的博客

03-18

4966

from transformers import BertTokenizer #uncased是不支持小写 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True) encoded_dict = tokenizer.encode_plus( sent, # Sentence to encode. .

import torch from transformers import BertTokenizer, BertModel # 加载Bert预训练模型和tokenizer model = BertModel.from_pretrained('bert-base-chinese') tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 微博文本和种子词 text = '今天天气真好，心情非常愉快！' seeds = ['天气', '心情', '愉快'] # 将微博文本和种子词转换为Bert输入格式 inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors='pt') seed_inputs = tokenizer.encode_plus(seeds, add_special_tokens=True, return_tensors='pt', padding=True) # 使用Bert模型获取微博文本和种子词的词向量 with torch.no_grad(): text_embeddings = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])[0] # [1, seq_len, hidden_size] seed_embeddings = model(seed_inputs['input_ids'], attention_mask=seed_inputs['attention_mask'])[0] # [batch_size, seq_len, hidden_size] # 计算种子词和微博文本中所有词语的余弦相似度 text_embeddings = text_embeddings.squeeze(0) # [seq_len, hidden_size] seed_embeddings = seed_embeddings.mean(dim=1) # [batch_size, hidden_size] -> [batch_size, 1, hidden_size] -> [batch_size, hidden_size] cosine_similarities = torch.matmul(text_embeddings, seed_embeddings.transpose(0, 1)) # [seq_len, batch_size] # 获取相似度最高的词语 similar_words = [] for i in range(len(seeds)): seed_similarities = cosine_similarities[:, i].tolist() max_sim_idx = seed_similarities.index(max(seed_similarities)) similar_word = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][max_sim_idx].item()) similar_words.append(similar_word) print(similar_words)

05-22

这段代码使用了BERT模型和tokenizer对微博文本和种子词进行编码，并计算它们之间的余弦相似度，从而获取微博文本中与种子词最相似的词语。具体的流程如下： 1. 加载Bert预训练模型和tokenizer： ``` model = BertModel.from_pretrained('bert-base-chinese') tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') ``` 2. 定义微博文本和种子词： ``` text = '今天天气真好，心情非常愉快！' seeds = ['天气', '心情', '愉快'] ``` 3. 将微博文本和种子词转换为Bert输入格式： ``` inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors='pt') seed_inputs = tokenizer.encode_plus(seeds, add_special_tokens=True, return_tensors='pt', padding=True) ``` 4. 使用Bert模型获取微博文本和种子词的词向量： ``` with torch.no_grad(): text_embeddings = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])[0] seed_embeddings = model(seed_inputs['input_ids'], attention_mask=seed_inputs['attention_mask'])[0] ``` 5. 计算种子词和微博文本中所有词语的余弦相似度： ``` cosine_similarities = torch.matmul(text_embeddings, seed_embeddings.transpose(0, 1)) ``` 6. 获取相似度最高的词语： ``` similar_words = [] for i in range(len(seeds)): seed_similarities = cosine_similarities[:, i].tolist() max_sim_idx = seed_similarities.index(max(seed_similarities)) similar_word = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][max_sim_idx].item()) similar_words.append(similar_word) ``` 7. 输出最相似的词语： ``` print(similar_words) ``` 该代码可以用于文本分类、文本相似度计算等NLP任务中。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交