LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts

515 篇文章 3 订阅

已下架不支持订阅

大型语言模型(LLM)正改变信息检索(IR)领域,研究发现神经检索模型在排名中偏好LLM生成的文档,这种现象称为源偏见,影响IR系统的公正性。作者构建新基准并分析源偏差原因,提醒社区关注此问题,影响可能扩展至推荐系统和多模式内容检索。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts》的翻译。

摘要

最近,大型语言模型(LLM)的出现彻底改变了信息检索(IR)应用的范式,尤其是在网络搜索中。LLM凭借其生成类人文本的非凡能力,在互联网上创造了大量文本。因此,LLM时代的IR系统面临着新的挑战:索引文档现在不仅是由人类编写的,而且是由LLM自动生成的。这些LLM生成的文档如何影响IR系统是一个紧迫且尚未探索的问题。在这项工作中,我们在涉及人工书写和LLM生成文本的场景中对不同的IR模型进行了定量评估。令人惊讶的是,我们的发现表明,神经检索模型倾向于对LLM生成的文档进行更高的排名。我们将神经检索模型中对LLM生成的文本的这类偏见称为源偏见。此外,我们发现这种偏差不仅限于第一阶段的神经检索器,而且扩展到第二阶段的神经重新排序器。然后,我们从文本压缩的角度进行了深入的分析,观察到神经模型可以更好地理解LLM生成的文本的语义信息,这一点在我们的理论分析中得到了进一步的证实。我们还讨论了由观察到的源偏差引起的潜在服务器问题,并希望我们的发现能给IR社区和其他人敲响重要的警钟。为了促进未来在LLM时代对IR的探索,构建的两个新基准和代码稍后将在https://github.com/KID-22/LLM4IR-Bias上可用。

1 引言

2 研究问题1:环境构造

3 研究问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值