LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts

最新推荐文章于 2024-08-12 21:37:19 发布

UnknownBody

最新推荐文章于 2024-08-12 21:37:19 发布

阅读量89

点赞数

文章标签：语言模型自然语言处理

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/134307339

版权

LLM 日更专栏收录该内容

515 篇文章 3 订阅

已下架不支持订阅

大型语言模型（LLM）正改变信息检索（IR）领域，研究发现神经检索模型在排名中偏好LLM生成的文档，这种现象称为源偏见，影响IR系统的公正性。作者构建新基准并分析源偏差原因，提醒社区关注此问题，影响可能扩展至推荐系统和多模式内容检索。

摘要由CSDN通过智能技术生成

本文是LLM系列文章，针对《LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts》的翻译。

摘要

最近，大型语言模型（LLM）的出现彻底改变了信息检索（IR）应用的范式，尤其是在网络搜索中。LLM凭借其生成类人文本的非凡能力，在互联网上创造了大量文本。因此，LLM时代的IR系统面临着新的挑战：索引文档现在不仅是由人类编写的，而且是由LLM自动生成的。这些LLM生成的文档如何影响IR系统是一个紧迫且尚未探索的问题。在这项工作中，我们在涉及人工书写和LLM生成文本的场景中对不同的IR模型进行了定量评估。令人惊讶的是，我们的发现表明，神经检索模型倾向于对LLM生成的文档进行更高的排名。我们将神经检索模型中对LLM生成的文本的这类偏见称为源偏见。此外，我们发现这种偏差不仅限于第一阶段的神经检索器，而且扩展到第二阶段的神经重新排序器。然后，我们从文本压缩的角度进行了深入的分析，观察到神经模型可以更好地理解LLM生成的文本的语义信息，这一点在我们的理论分析中得到了进一步的证实。我们还讨论了由观察到的源偏差引起的潜在服务器问题，并希望我们的发现能给IR社区和其他人敲响重要的警钟。为了促进未来在LLM时代对IR的探索，构建的两个新基准和代码稍后将在https://github.com/KID-22/LLM4IR-Bias上可用。

1 引言

2 研究问题1：环境构造

3 研究问题

了解本专栏

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts

最近，大型语言模型（LLM）的出现彻底改变了信息检索（IR）应用的范式，尤其是在网络搜索中。LLM凭借其生成类人文本的非凡能力，在互联网上创造了大量文本。因此，LLM时代的IR系统面临着新的挑战：索引文档现在不仅是由人类编写的，而且是由LLM自动生成的。这些LLM生成的文档如何影响IR系统是一个紧迫且尚未探索的问题。在这项工作中，我们在涉及人工书写和LLM生成文本的场景中对不同的IR模型进行了定量评估。令人惊讶的是，我们的发现表明，神经检索模型倾向于对LLM生成的文档进行更高的排名。
复制链接

扫一扫