论文阅读:JINA EMBEDDINGS 2: 8192-Token General-Purpose Text Embeddings for Long Documents

Abstract

文本嵌入模型已经成为将句子转换为封装语义信息的固定大小特征向量的强大工具。虽然这些模型对于信息检索、语义聚类和文本重新排序等任务至关重要,但大多数现有的开源模型,尤其是那些建立在BERT等架构上的模型,很难表示冗长的文档,并且经常采用截断方法。缓解这一挑战的一种常见方法是将文档拆分为较小的段落进行嵌入。然而,这种策略会产生更大的向量集,从而导致内存消耗增加,以及延迟增加的计算密集型向量搜索。

为了解决这个问题,我们引入了Jina Embeddings v2,这是一个开源文本嵌入模型1,能够容纳多达8192个token。该模型旨在超越传统的512 token限制,并熟练处理长文档。Jina Embeddings v2不仅在MTEB基准测试中的一系列嵌入相关任务上实现了SOTA,而且与OpenAI专有的text-embedding-ad-002模型的性能相匹配。此外,我们的实验表明,扩展上下文可以提高NarrativeQA等任务的性能。

1. Introduction

使用神经网络将文本和图像编码为嵌入表示已成为分析和处理大量非结构化数据的标准做法。在自然语言处理中sentence embedding models将短语、句子和段落的语义转换为连续向量空间内的点。这些转换后的数据点随后可以用于无数的下游应用,例如信息检索,以及聚类和分类任务。

尽管embedding模型有许多应用,但许多模型面临的主要挑战是对可以编码到单个embedding中的文本的最大序列长度的限制。为了避免这种情况,从业者通常在编码之前将文档分割成更小的块。不幸的是,这种策略导致了语义的碎片化,导致embeddings歪曲了整个段落。此外,这种方法会产生过多的向量,最终导致内存使用率的

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

comli_cn

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值