深入理解UKPLab/sentence-transformers中的Matryoshka嵌入技术-CSDN博客

本文链接：https://blog.csdn.net/gitblog_01103/article/details/148375710

深入理解UKPLab/sentence-transformers中的Matryoshka嵌入技术

sentence-transformers Multilingual Sentence & Image Embeddings with BERT 项目地址: https://gitcode.com/gh_mirrors/se/sentence-transformers

前言

在自然语言处理领域，密集嵌入模型（Dense Embedding Models）已经成为表示文本语义信息的标准方法。传统嵌入模型生成的向量通常具有固定维度（如768或1024维），这在处理大规模数据时会带来显著的存储和计算开销。本文将介绍一种创新的嵌入表示学习方法——Matryoshka表示学习（Matryoshka Representation Learning），它能有效解决这一问题。

什么是Matryoshka嵌入？

Matryoshka嵌入技术灵感来源于俄罗斯套娃（Matryoshka Dolls），其核心思想是训练能够生成"嵌套式"嵌入向量的模型。这些嵌入向量在截断到更小尺寸后仍然保持有效性，从而为下游任务提供灵活的选择空间。

技术优势

灵活选择维度：可以根据需求选择不同大小的嵌入维度
高效处理：小维度向量可大幅提升处理速度
存储优化：减少高维度向量带来的存储压力
性能保持：即使大幅缩减维度，仍能保持较高性能

技术原理与实现

训练过程

Matryoshka训练的关键在于同时优化多个维度的损失函数。以768维的嵌入模型为例，训练时会同时在768、512、256、128、64等多个维度上计算损失：

from sentence_transformers import SentenceTransformer
from sentence_transformers.losses import CoSENTLoss, MatryoshkaLoss

model = SentenceTransformer("microsoft/mpnet-base")
base_loss = CoSENTLoss(model=model)
loss = MatryoshkaLoss(model=model, loss=base_loss, matryoshka_dims=[768, 512, 256, 128, 64])

二维Matryoshka扩展

更高级的Matryoshka2dLoss结合了维度缩减和层数自适应技术，可以同时优化嵌入维度和模型深度：

from sentence_transformers.losses import Matryoshka2dLoss

loss = Matryoshka2dLoss(model=model, loss=base_loss, matryoshka_dims=[768, 512, 256, 128, 64])

性能表现

实验数据表明，Matryoshka模型在不同维度下都表现出色：

绝对性能：在所有测试维度上，Matryoshka模型的Spearman相似度都高于标准模型
性能保持率：在仅保留8.3%维度(64/768)时，仍能保持98.37%的性能
下降平缓：性能随维度减少的下降速度明显慢于标准模型

实际应用

推理使用

训练好的Matryoshka模型可以灵活指定输出维度：

model = SentenceTransformer(
    "nomic-ai/nomic-embed-text-v1.5",
    trust_remote_code=True,
    truncate_dim=64,  # 指定输出维度
)

embeddings = model.encode(["文本示例1", "文本示例2"])