tokenizer.encode_plus,BERT类模型 和 Sentence-BERT 他们之间的区别与联系

🌱 一句话总结

  • tokenizer.encode_plus:是预处理器,把句子变成模型能读的数字。
  • BERT 类模型:是语义理解机器,输入这些数字,输出每个词或整句话的“理解结果”(向量)。
  • Sentence-BERT(SBERT):是用 BERT 改造的句子级向量提取器,能把整句话变成一个语义向量,适合“语义相似度”“检索”类任务。

🧱 分别是什么?怎么联系在一起的?

工具是什么输入输出用来干嘛
tokenizer.encode_plus把文字 → 编码(token id)+ 掩码(mask)文本句子input_ids, attention_mask给模型准备输入
BERT语言模型本体(不懂语义→懂语义)编码后的 input_ids + attention_mask每个 token 的向量常用于分类、NER、问答等
Sentence-BERT用 BERT 改造的“句子向量”模型原始句子一个句子向量(通常是768维或384维)相似度计算、语义检索、聚类

📌 联系流程示意图(简化版):

一般 BERT 流程:
tokens = tokenizer.encode_plus("我喜欢吃苹果")
outputs = model(**tokens)
print(outputs.last_hidden_state.shape)  # [1, seq_len, 768]

➤ 输出的是每个词的向量(比如“我”、“喜欢”、“吃”、“苹果”都有一个向量)


Sentence-BERT 流程:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

sentence_vec = model.encode("我喜欢吃苹果")
print(sentence_vec.shape)  # (384,)

➤ 输出的是整句话的语义向量


🍎 举个例子

任务:找“我想吃水果”和“我喜欢苹果”是不是一个意思?

如果你用 BERT:

  • 你要写很多额外代码来对比两个句子向量(比如平均池化、CLS提取、再计算余弦相似度)
  • 不方便、不准

如果你用 Sentence-BERT:

  • 直接两个 .encode() 出句子向量
  • 然后 .cosine_similarity(vec1, vec2) 就能判断相似度
  • 高效、准确!

✅ 总结对比:

方面tokenizer.encode_plusBERTSentence-BERT
类型预处理器模型架构特化模型
输出Token id + mask每个 token 的向量整句的向量
用途模型输入准备分类/问答/NER等相似度/检索/聚类
是否理解整句语义部分✅ 强化了整句理解
这个错误通常是由于使用了错误的tokenizer导致的。在使用HuggingFaceEmbeddings时,你需要使用模型相对应的tokenizer。如果使用了不兼容的tokenizer,就会出现这个错误。 在BERT模型的情况下,可以使用`BertTokenizer`或`BertTokenizerFast`。但是值得注意的是,这两个的输入格式不同: - `BertTokenizer`的输入是单个句子或句子对,可以使用`encode`方法将句子转换为输入向量。 - `BertTokenizerFast`的输入是一批句子,需要使用`__call__`方法将句子转换为输入向量。 所以,如果你使用`BertTokenizerFast`,你需要将句子封装成列表或元组,并将其传递给tokenizer。例如: ```python from transformers import BertTokenizerFast, BertModel from sentence_transformers import SentenceTransformer tokenizer = BertTokenizerFast.from_pretrained('bert-base-cased') model = BertModel.from_pretrained('bert-base-cased') sentences = ['This is an example sentence', 'Each sentence is converted'] input_ids = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt') outputs = model(**input_ids) sentence_transformer_model = SentenceTransformer(modules=[model, tokenizer]) embeddings = sentence_transformer_model.encode(sentences) ``` 在这个例子中,我们使用了`BertTokenizerFast`,并将句子列表传递给tokenizer进行编码。然后使用编码后的输入向量来计算BERT模型的输出。最后,我们使用SentenceTransformer将句子转换为嵌入向量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值