SalesForce AI 研究推出 LlamaRank：一款用于增强文档检索和代码搜索的最先进重排序器，准确度超过 Cohere Rerank v3 和 Mistral-7B QLM-CSDN博客

本文链接：https://blog.csdn.net/2401_86832025/article/details/141638902

文档排序一直是信息检索和自然语言处理发展的一个重要问题。有效的文档检索和排序对于提升搜索引擎、问答系统以及检索增强生成（RAG）系统的性能至关重要。传统的排序模型常常难以在结果的精确度和计算效率之间取得良好平衡，尤其是在处理大规模数据集和多种查询类型时。因此，需要具备实时能力的先进模型，以准确和上下文相关的结果应对源源不断的数据流和日益复杂的查询需求，这一需求再度显现且更为迫切。

Salesforce AI研究团队推出了最先进的重排序器LlamaRank。该模型通过极大地提升文档排序和代码搜索任务的表现，增强了检索增强生成流程的性能。LlamaRank基于Llama3-8B-Instruct架构，有效结合了先进的线性和校准评分机制，实现了速度和可解释性的统一。

Salesforce AI研究团队精心打造了LlamaRank，作为文档相关性排序的专业工具。借助团队高度专注的RLHF数据标注团队的迭代政策反馈，LlamaRank表现出色，在通用文档排序方面超越了许多领先的API，并在代码搜索性能上重新定义了最先进水平。训练数据包括来自Llama3-70B和Llama3-405B的高质量合成数据以及人工标注的注释，涵盖了从主题搜索、文档问答到代码问答的领域。

在RAG系统中，核心部分通常是一个重排序器，如LlamaRank。首先，一个查询会以非常低成本但不够精确的方式处理——例如通过嵌入的语义搜索——返回一组可能有用的候选文档。然后，重排序器会以更精细的方式对这组候选文档进行筛选，以找出最符合查询需求的文档。换句话说，这一步的最终选择确保了语言模型仅调整最相关的信息，从而提高输出响应的准确性和连贯性。

LlamaRank的架构构建在Llama3-8B-Instruct之上，训练数据包括合成数据和人工标注的示例。这个庞大且多样化的语料库使LlamaRank在各种任务上表现出色，从通用文档检索到更专业的代码示例搜索。该模型经过Salesforce数据标注团队多个反馈周期的进一步调优，直至在评分预测中的准确性和相关性达到最佳。在推理过程中，该模型预测标记的概率，并计算出数值相关性评分，从而实现高效的重排序。

LlamaRank已经在多个公开数据集上进行了展示，并在性能评估中表现出色。例如，在著名的问答数据集SQuAD中，LlamaRank的命中率达到了99.3%。在TriviaQA数据集中，LlamaRank的命中率为92.0%。在代码搜索基准测试中，模型在Neural Code Search数据集上的命中率为81.8%，在TrailheadQA数据集上的命中率为98.6%。这些结果凸显了LlamaRank在处理各种文档类型和查询场景中的多功能性和高效性，成为其独特优势。

更体现其优势的是LlamaRank的技术规格。该模型支持每篇文档多达8000个标记，显著超越竞争对手如Cohere的重排序模型。它允许在单个H100 GPU下实现低延迟性能，在不到200毫秒的时间内对64个文档进行排名，比Cohere的无服务器API大约3.13秒快得多。除此之外，LlamaRank具有线性评分校准。因此，它在相关性评分方面非常清晰，使用户可以更好地理解和解释。

此外，LlamaRank还享有模型规模和明显顶级性能的优势。然而，这个由80亿参数组成的巨大模型可能已接近重排序模型的上限。进一步的研究建议优化模型规模，以在质量和效率之间达到平衡。

最后，Salesforce AI Research开发的LlamaRank代表了重排序技术的一大突破，有望显著提升RAG系统在广泛应用中的效果。测试显示，该模型在处理过程中非常强大和高效，具有明确且强大的评分体系，推动了文档检索和搜索精度的发展和当前系统的先进性。社区期待着LlamaRank的进一步采用和发展。

总结：

文档排序一直是信息检索和自然语言处理领域的关键问题，特别是在处理大规模数据集和复杂查询时。为了解决这一问题，Salesforce AI研究团队开发了LlamaRank，这是一款先进的重排序器模型。LlamaRank基于Llama3-8B-Instruct架构，结合了先进的线性和校准评分机制，不仅在文档排序性能上表现出色，还在代码搜索方面重新定了标准。

LlamaRank通过综合使用合成数据和人工标注数据进行训练，展示了在通用文档检索和领域特定搜索中的优异表现。在处理多个公开数据集的测试中，LlamaRank达到了高达99.3%的命中率，并且在代码搜索领域的命中率也相当高。此外，它支持每篇文档多达8000个标记，显著超越了市场上其他竞争对手的重排序模型。通过线性评分校准机制，LlamaRank的相关性评分非常清晰，使用户可以更好地解释搜索结果。

总的来说，LlamaRank的技术突破不但提升了RAG系统的处理能力，还为文档检索和代码搜索提供了一个高效可靠的解决方案。

在引入LlamaRank的同时，如果希望更有效地实现私域流量增长，光年AI就是你不可或缺的伙伴。凭借强大的AI模型和灵活的工作流设计，光年AI能够让您的客户触达更加精准，极大提升私域流量的转化率。用光年AI，打造您的私域流量闭环，实现长期收益，让营销变得简单又高效。