bert的tokenizer.encode_plus使用

encoded_dict = tokenizer.encode_plus(
                a,
                b,
                max_length=max_seq_length,
                return_overflowing_tokens=True,
                padding="max_length",
                stride=0,
                truncation="only_second",
                return_token_type_ids=True
            )
# 输出结果结构: [cls] a [seq] b [seq]
# a和b 可以是 id和字符 的任意组合,如:“a是id列表,b是字符列表”;

# max_length 最大长度 一般为512;

# return_overflowing_tokens 这个属性在分块中很重要,可以输出截断后剩余部分,
# 和truncation配合使用可以选择截断 a和b 中哪一个;

# padding 用于0补全

# stride 重叠部分长度 如:abc和bcd的重叠部分长度为2

# truncation 这个属性选择截断方式,如‘only_second’表示只截断第二个序列b,其他的种类相似;

# return_token_type_ids 表示是否输出type ids。

return_overflowing_tokens 属性还可以用来检查 a和b 的组合长度是否超过512,使用:

assert encoded_dict['overflowing_tokens'] == []

return_overflowing_tokens 还可以进行循环分块,只需用其更新b:

b = encoded_dict['overflowing_tokens']

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
import torch from transformers import BertTokenizer, BertModel # 加载Bert预训练模型和tokenizer model = BertModel.from_pretrained('bert-base-chinese') tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') # 微博文本和种子词 text = '今天天气真好,心情非常愉快!' seeds = ['天气', '心情', '愉快'] # 将微博文本和种子词转换为Bert输入格式 inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors='pt') seed_inputs = tokenizer.encode_plus(seeds, add_special_tokens=True, return_tensors='pt', padding=True) # 使用Bert模型获取微博文本和种子词的词向量 with torch.no_grad(): text_embeddings = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])[0] # [1, seq_len, hidden_size] seed_embeddings = model(seed_inputs['input_ids'], attention_mask=seed_inputs['attention_mask'])[0] # [batch_size, seq_len, hidden_size] # 计算种子词和微博文本中所有词语的余弦相似度 text_embeddings = text_embeddings.squeeze(0) # [seq_len, hidden_size] seed_embeddings = seed_embeddings.mean(dim=1) # [batch_size, hidden_size] -> [batch_size, 1, hidden_size] -> [batch_size, hidden_size] cosine_similarities = torch.matmul(text_embeddings, seed_embeddings.transpose(0, 1)) # [seq_len, batch_size] # 获取相似度最高的词语 similar_words = [] for i in range(len(seeds)): seed_similarities = cosine_similarities[:, i].tolist() max_sim_idx = seed_similarities.index(max(seed_similarities)) similar_word = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][max_sim_idx].item()) similar_words.append(similar_word) print(similar_words)
05-22
这段代码使用BERT模型和tokenizer对微博文本和种子词进行编码,并计算它们之间的余弦相似度,从而获取微博文本中与种子词最相似的词语。具体的流程如下: 1. 加载Bert预训练模型和tokenizer: ``` model = BertModel.from_pretrained('bert-base-chinese') tokenizer = BertTokenizer.from_pretrained('bert-base-chinese') ``` 2. 定义微博文本和种子词: ``` text = '今天天气真好,心情非常愉快!' seeds = ['天气', '心情', '愉快'] ``` 3. 将微博文本和种子词转换为Bert输入格式: ``` inputs = tokenizer.encode_plus(text, add_special_tokens=True, return_tensors='pt') seed_inputs = tokenizer.encode_plus(seeds, add_special_tokens=True, return_tensors='pt', padding=True) ``` 4. 使用Bert模型获取微博文本和种子词的词向量: ``` with torch.no_grad(): text_embeddings = model(inputs['input_ids'], attention_mask=inputs['attention_mask'])[0] seed_embeddings = model(seed_inputs['input_ids'], attention_mask=seed_inputs['attention_mask'])[0] ``` 5. 计算种子词和微博文本中所有词语的余弦相似度: ``` cosine_similarities = torch.matmul(text_embeddings, seed_embeddings.transpose(0, 1)) ``` 6. 获取相似度最高的词语: ``` similar_words = [] for i in range(len(seeds)): seed_similarities = cosine_similarities[:, i].tolist() max_sim_idx = seed_similarities.index(max(seed_similarities)) similar_word = tokenizer.convert_ids_to_tokens(inputs['input_ids'][0][max_sim_idx].item()) similar_words.append(similar_word) ``` 7. 输出最相似的词语: ``` print(similar_words) ``` 该代码可以用于文本分类、文本相似度计算等NLP任务中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值