ACL2024 | LLM+RAG可能要毁了信息检索,一份深入研究

c1fcb7fff302cc286358d2fa880b65a5.png

论文:[ACL2024] Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering
地址:https://arxiv.org/pdf/2404.10496

研究背景

  1. 研究问题:这篇文章研究了大型语言模型(LLMs)对检索增强生成(RAG)系统的影响,特别是LLM文本在信息检索和生成中的短期和长期效应。具体来说,研究了LLM生成文本是否会逐渐取代人类生成的内容,导致数字信息生态系统中的“沉默螺旋”效应。

  2. 研究难点:该问题的研究难点包括:LLM生成文本的快速传播和索引对检索和生成过程的影响;如何评估LLM生成文本对RAG系统的短期和长期影响;以及如何防止LLM生成内容的错误传播和误导信息的扩散。

  3. 相关工作:相关研究包括RAG系统的分析、AIGC的影响以及“沉默螺旋”理论的应用。RAG系统的研究表明,检索在增强语言模型效能方面起到了重要作用。AIGC的研究则集中在AI生成内容对社会和技术的影响,特别是对错误信息和偏见的研究。

研究方法

这篇论文提出了一个迭代管道来研究LLM生成文本对RAG系统的短期和长期影响。具体来说,

  1. RAG系统建模:RAG系统可以形式化为一个函数 , 其中 是查询集合, 是文档集合, 是LLM的知识库, 是系统生成的文本集合。RAG系统分为检索阶段和生成阶段, 分别通过检索函数 和生成函数 实现。54d6ac01b20fc83235644032eb416bc4.png

  2. 模拟过程:模拟过程从纯人类生成文本数据集开始, 逐步引入LLM生成文本, 观察其对RAG系统的影响。具体步骤包括:

  • 基线建立:使用初始数据集 建立基准RAG管道的性能。

  • 零样本文本引入:将LLM生成的零样本文本加入数据集 , 生成新的数据集 。

  • 检索和重排:对每个查询 , 通过检索函数 获取文档子集 , 并进行重排。

  • 生成阶段:使用LLM生成答案文本 。

  • 后处理阶段:去除可能暴露LLM身份的文本片段。

  • 索引更新:将生成的文本 加入数据集 , 更新索引。

  • 迭代操作: 重复上述步骤, 直到达到所需的迭代次数 。

实验设计

  1. 数据集和指标:实验使用了常用的开放域问答(ODQA)数据集,包括NQ、WebQ、TriviaQA和PopQA。评估检索阶段的指标包括Acc@5和Acc@20,评估生成阶段使用Exact Match(EM)指标。

  2. 检索和重排方法:实验采用了多种检索方法,包括稀疏模型BM25、对比学习基于的密集检索器Contriever、高级BGEBase检索器和LLMEmbedder。重排方法包括T5基础的MonoT5-3B、UPR-3B和BGEreranker。

  3. 生成模型:实验结合了多种流行的LLMs生成的文本,包括GPT-3.5-Turbo、LLaMA2-13B-Chat、Qwen-14B-Chat、Baichuan2-13B-Chat和ChatGLM3-6B。

结果与分析

  1. 短期影响

  • LLM生成文本的引入对RAG系统的检索和生成性能产生了立即影响。检索准确性普遍提高,但QA性能表现不一。8ebee624dbe388731dfdd443504e6045.png

  • 具体数据表明,使用BM25在TriviaQA数据集上的Acc@5提高了31.2%,Acc@20提高了19.1%。

  • LLM生成文本在大多数情况下提高了检索准确性,但也可能对QA性能产生负面影响。

  1. 长期影响

  • 随着迭代次数的增加,检索有效性普遍下降,而QA性能保持稳定。e76d68cfc345256d51722ce025c4e9f0.png

  • 例如,在NQ数据集上,从第一次迭代到第十次迭代,Acc@5平均下降了21.4%。

  • QA性能没有随检索准确性的下降而下降,EM值在小范围内波动,但总体保持稳定。a44a17dcbe8828ca6a65cf0ad158869e.png

  1. “沉默螺旋”现象

  • 检索模型倾向于优先排序LLM生成文本,导致人类生成文本在搜索结果中的地位逐渐下降。e99eb16e0cfa7e3a1078123bc826df41.png

  • 经过十次迭代后,人类生成文本在所有数据集中的比例降至10%以下。

  • 随着时间的推移,观点同质化趋势加剧,检索结果的多样性和准确性均有所下降。801ea201a26341eb4ec7750bc116e991.png

总体结论

这篇论文通过模拟实验揭示了LLM生成文本对RAG系统的“沉默螺旋”效应。研究表明,尽管LLM生成文本在短期内提高了检索准确性,但长期来看可能导致人类生成内容的边缘化和信息的同质化。论文呼吁学术界关注这一问题,确保数字信息环境的多样性和真实性。

AI辅助人工完成。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

77b3bf3f34dd82c508f0d8812b6f4ee5.png

id:DLNLPer,记得备注呦

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值