NV-Embed重塑文本嵌入艺术

论文:https://arxiv.org/pdf/2405.17428

代码:未开源

模型:https://huggingface.co/nvidia/NV-Embed-v1

NVIDIA团队提出NV-Embed,采用多种架构设计和训练流程,显著提高LLM作为多功能嵌入模型的性能,同时保持其简单性和可重现性。

  1. 对于模型架构,提出了一个潜在的注意力层来获取汇总嵌入,与使用LLMs中的平均汇总或最后一个标记嵌入相比,它始终改善了检索和下游任务的准确性。

  2. 为了增强表示学习,们在对比训练期间去除了LLMs的因果注意力掩码。

  3. 对于模型训练,引入了一个两阶段的对比指导调整方法。首先,它在检索数据集上使用带有指导的对比训练,利用批内负样本和策划的困难负样本。在第二阶段,它将各种非检索数据集融入到指导调整中,不仅提高了非检索任务的准确性,还改善了检索性能。

通过结合这些技术,NV-Embed模型仅使用公开可用的数据,在 Massive Text Embedding Benchmark(MTEB)上取得了69.32的创纪录高分,截至2024年5月24日,排名第一,涵盖了56个任务,包括检索、重新排序、分类、聚类和语义文本相似性任务。值得注意的是,NV-Embed模型在MTEB基准测试中的15个检索任务中也取得了59.36的最高分(也称为BEIR)。

摘要(Abstract)

  • 目的:提高大型语言模型(LLM)在文本嵌入任务上的性能。
  • 方法:提出了NV-Embed模型,包含新架构和训练过程。
  • 结果:使用潜在注意力层和两阶段对比指令调整方法,在多个基准测试上取得优异成绩。
  • 开源:模型将在Hugging Face上开源。

1. 引言(Introduction)

  • 文本嵌入的重要性:作为许多下游任务的基础,如检索、重排等。
  • 现有模型的局限性:基于BERT或T5的模型虽然长期占主导地位,但存在局限性。
  • NV-Embed的优势:不依赖专有数据,使用公开数据集训练,具有更好的泛化能力和性能。

2. 相关工作(Related Work)

  • 2.1 双向嵌入模型:基于BERT或T5,通过对比学习进一步预训练。
  • 2.2 解码器仅LLM基础的嵌入模型:先前工作显示解码器仅LLM在嵌入任务上可能表现不佳,但最新研究开始显示其潜力。

3. 方法(Method)

  • 3.1 双向注意力:通过移除因果注意力掩码,允许模型在自回归文本生成中双向学习,增强表示能力。
  • 3.2 潜在注意力层:提出一种新的池化方法,使用潜在数组和多头注意力机制,以获得更好的序列表示。
    • 查询(Q)和键值(KV):使用解码器最后层的隐藏状态作为查询,潜在数组作为键值输入。
    • 输出(O):通过softmax归一化的QKT矩阵与V相乘,并通过MLP层进一步处理。
  • 3.3 两阶段指令调整
    • 第一阶段:在检索数据集上使用对比训练,利用批内负样本和人工筛选的硬负样本。
    • 第二阶段:混合非检索数据集进行指令调整,不使用批内负样本,以提高分类、聚类和语义文本相似性任务的准确性,同时意外地增强了检索性能。

4. 训练数据(Training Data)

  • 公共检索数据集:使用了多个数据集,如MS MARCO、HotpotQA等,并采用另一种基于编码器的嵌入模型来筛选硬负样本。
  • 公共非检索数据集:包括分类、聚类和语义相似性任务的数据集,采用与检索数据集相同的格式进行对比训练。

5. 实验(Experiments)

  • 5.1 实验细节
    • 使用了低秩适应(LoRA)方法对NV-Embed模型进行高效微调。
    • 选择了Mistral 7B作为基础模型,并对其进行了端到端的对比损失训练。
  • 5.2 MTEB结果:在56个任务上评估了NV-Embed模型,并与前沿模型进行了比较,显示出新记录的高分。
  • 5.3 消融研究
    • 因果注意力与双向注意力:证明了双向注意力在嵌入任务上更有效。
    • 池化方法:比较了不同的池化技术,发现潜在注意力层在检索和分类任务上特别有效。

  本文首发于公众号:AI智语狂想,欢迎关注。 

  • 37
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI智语狂想

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值