本文是LLM系列文章,针对《LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts》的翻译。
LLM可能主导信息访问:神经检索器倾向于LLM生成的文本
摘要
最近,大型语言模型(LLM)的出现彻底改变了信息检索(IR)应用的范式,尤其是在网络搜索中。LLM凭借其生成类人文本的非凡能力,在互联网上创造了大量文本。因此,LLM时代的IR系统面临着新的挑战:索引文档现在不仅是由人类编写的,而且是由LLM自动生成的。这些LLM生成的文档如何影响IR系统是一个紧迫且尚未探索的问题。在这项工作中,我们在涉及人工书写和LLM生成文本的场景中对不同的IR模型进行了定量评估。令人惊讶的是,我们的发现表明,神经检索模型倾向于对LLM生成的文档进行更高的排名。我们将神经检索模型中对LLM生成的文本的这类偏见称为源偏见。此外,我们发现这种偏差不仅限于第一阶段的神经检索器,而且扩展到第二阶段的神经重新排序器。然后,我们从文本压缩的角度进行了深入的分析,观察到神经模型可以更好地理解LLM生成的文本的语义信息,这一点在我们的理论分析中得到了进一步的证实。我们还讨论了由观察到的源偏差引起的潜在服务器问题,并希望我们的发现能给IR社区和其他人敲响重要的警钟。为了促进未来在LLM时代对IR的探索,构建的两个新基准和代码稍后将在https://github.com/KID-22/LLM4IR-Bias上可用。