Abstract
文本嵌入模型已经成为将句子转换为封装语义信息的固定大小特征向量的强大工具。虽然这些模型对于信息检索、语义聚类和文本重新排序等任务至关重要,但大多数现有的开源模型,尤其是那些建立在BERT等架构上的模型,很难表示冗长的文档,并且经常采用截断方法。缓解这一挑战的一种常见方法是将文档拆分为较小的段落进行嵌入。然而,这种策略会产生更大的向量集,从而导致内存消耗增加,以及延迟增加的计算密集型向量搜索。
为了解决这个问题,我们引入了Jina Embeddings v2,这是一个开源文本嵌入模型1,能够容纳多达8192个token。该模型旨在超越传统的512 token限制,并熟练处理长文档。Jina Embeddings v2不仅在MTEB基准测试中的一系列嵌入相关任务上实现了SOTA,而且与OpenAI专有的text-embedding-ad-002模型的性能相匹配。此外,我们的实验表明,扩展上下文可以提高NarrativeQA等任务的性能。
1. Introduction
使用神经网络将文本和图像编码为嵌入表示已成为分析和处理大量非结构化数据的标准做法。在自然语言处理中sentence embedding models将短语、句子和段落的语义转换为连续向量空间内的点。这些转换后的数据点随后可以用于无数的下游应用,例如信息检索,以及聚类和分类任务。
尽管embedding模型有许多应用,但许多模型面临的主要挑战是对可以编码到单个embedding中的文本的最大序列长度的限制。为了避免这种情况,从业者通常在编码之前将文档分割成更小的块。不幸的是,这种策略导致了语义的碎片化,导致embeddings歪曲了整个段落。此外,这种方法会产生过多的向量,最终导致内存使用率的