SBERT和BERT的区别和联系

panshengnan

已于 2024-12-10 14:03:10 修改

阅读量1.1k

点赞数 11

分类专栏： NLP 文章标签： nlp

于 2024-12-09 11:17:25 首次发布

本文链接：https://blog.csdn.net/panshengnan/article/details/144341725

版权

NLP 专栏收录该内容

20 篇文章

订阅专栏

SBERT 和 BERT 的区别和联系

BERT（Bidirectional Encoder Representations from Transformers） 和 SBERT（Sentence-BERT） 都是基于 Transformer 架构的模型。SBERT 是 BERT 的一个改进变体，针对句子嵌入和语义相似度计算任务进行了优化。

SBERT 与 BERT 的联系

相同的基础架构：
- SBERT 完全基于 BERT，使用了相同的 Transformer 架构。
- 它继承了 BERT 的多头自注意力机制（Multi-Head Attention）和双向上下文表示（Bidirectional Contextual Representations）。
共享预训练权重：
- SBERT 的初始化权重来自于 BERT 的预训练模型，例如 bert-base-uncased 或 roberta-base。
输入编码方式：
- 两者都将输入文本分词（Tokenization）为子词，并在输入中使用特殊标记 [CLS] 和 [SEP]。
丰富的语义表示：
- 两者都能捕捉上下文相关的语义信息，适用于多种 NLP 任务。

SBERT 与 BERT 的区别

方面	BERT	SBERT
设计目标	通用语言建模，适合多种 NLP 任务	高效生成句子嵌入，优化语义相似度计算任务
输入方式	句子对需拼接在一起，联合输入	每个句子单独编码，生成独立的句子嵌入
输出	每个 Token 的上下文表示（Token Embeddings）	句子的全局表示（Sentence Embeddings）
语义相似度计算效率	每对句子都需重新输入并编码，效率低	嵌入计算一次后可复用，效率高
池化层（Pooling Layer）	没有明确的句子池化层，需手动选择 `[CLS]` 或取均值	使用 Mean-Pooling 或 `[CLS]` 自动生成句子嵌入
微调任务	分类任务、问答系统、序列标注等	语义相似度计算、信息检索、文本聚类等
效率	针对句子对任务效率低	特别优化了大规模语义相似度计算任务

详细解析：SBERT 如何改进 BERT 的不足

1. 针对句子嵌入的优化

BERT 的问题：
- BERT 并未专门设计用于句子嵌入。
- 在语义相似度任务中，BERT 需要将两个句子拼接后输入模型进行联合编码。
- 每计算一对句子，都需要重复计算，时间复杂度高。
SBERT 的改进：
- SBERT 引入了句子级别的独立编码机制，每个句子只需编码一次，生成的嵌入可以重复使用。
- 通过余弦相似度或其他度量方式计算句子间的相似度，大幅提高了效率。

2. 增加池化层

BERT 的问题：
- BERT 输出的是每个 Token 的嵌入，没有直接提供句子级别的嵌入。
- 使用 BERT 时，需手动从 [CLS] Token 或取词向量均值生成句子嵌入。
SBERT 的改进：
- SBERT 在编码器后增加了池化层（Pooling Layer），自动生成句子级别的固定长度嵌入。
- 常用的池化方法包括：
  - Mean-Pooling：对所有 Token 的嵌入取平均值。
  - [CLS] Token：直接使用 [CLS] 的嵌入。

3. 微调任务的不同

BERT：
- BERT 的预训练目标是掩码语言模型（MLM）和下一句预测（NSP），这些目标生成的是通用的语言表示。
- 微调时，BERT 被用于分类任务（如情感分析）、序列标注任务（如命名实体识别）和问答系统。
SBERT：
- SBERT 的微调任务聚焦于句子级别的任务，如：
  - 语义文本相似度（STS）：预测句子对的相似度分数。
  - 自然语言推理（NLI）：判断句子对的逻辑关系（Entailment、Neutral、Contradiction）。

4. 计算效率的不同

BERT：
- 每对句子必须拼接后重新输入模型进行计算。
- 时间复杂度较高，尤其在大规模语义搜索场景中效率低下。
SBERT：
- 每个句子独立编码，只需计算一次嵌入。
- 后续的相似度计算只需简单的数学操作（如余弦相似度）。

BERT 和 SBERT 的示例对比

使用 BERT 计算句子对相似度

python

复制代码

from transformers import AutoTokenizer, AutoModel import torch # 加载 BERT 模型和分词器 tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") model = AutoModel.from_pretrained("bert-base-uncased") # 输入句子对 sentence1 = "A man is playing a guitar." sentence2 = "Someone is performing music." # 拼接句子 inputs = tokenizer(sentence1, sentence2, return_tensors="pt", padding=True, truncation=True) # 获取 BERT 输出 outputs = model(**inputs) embedding = outputs.last_hidden_state[:, 0, :] # 通常使用 [CLS] 的嵌入 print("Embedding shape:", embedding.shape) # 输出形状 (1, 768)

问题：每次计算新句子对都需重新编码，效率低。

使用 SBERT 计算句子对相似度

python

复制代码

from sentence_transformers import SentenceTransformer from sklearn.metrics.pairwise import cosine_similarity # 加载 SBERT 模型 model = SentenceTransformer("all-MiniLM-L6-v2") # 输入句子 sentence1 = "A man is playing a guitar." sentence2 = "Someone is performing music." # 生成句子嵌入 embedding1 = model.encode(sentence1) embedding2 = model.encode(sentence2) # 计算余弦相似度 similarity = cosine_similarity([embedding1], [embedding2]) print(f"Semantic Similarity: {similarity[0][0]:.4f}")

优点：每个句子嵌入只需计算一次，后续可重复使用，适合大规模检索和相似度计算。