LLM是如何将信息检索杀死的?

f06ce9a7e03555efe0e9ab3195d36e7b.png

主题

信任密码:探索LLM文本的长远影响

时间

2024.11.23 10:30-11:30 周六

入群

欢迎加入NICE每周分享交流群,在群内与分享嘉宾和观众进行深入交流讨论,并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

125d7d584d66e227997d5f9ebdd971e4.png

扫码加小助手微信进NICE每周报告分享交流群,备注“【昵称-单位-研究方向-NICE入群】 ”

内容

1eec881a711e1197666a89848abcb310.png

论文题目 :Spiral of Silence: How is Large Language Model Killing Information Retrieval?—A Case Study on Open Domain Question Answering

论文链接:https://aclanthology.org/2024.acl-long.798.pdf

项目主页:https://github.com/VerdureChen/SOS-Retrieval-Loop

相关工作列表

1. Neural Retrievers are Biased Towards LLM-Generated content

2. Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts?

3. PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models

4. Homogenization Effects of Large Language Models on Human Creative Ideation

5. Generative Echo Chamber? Effect of LLM-Powered Search Systems on Diverse Information Seeking

引言

我们正身处一个算法驱动文本生成的新纪元,其中大语言模型(LLMs)的广泛应用不仅提升了内容创作的效率,也增加了虚假信息制造的简易性。随着大语言模型生成的文本数量的增加和被搜索引擎的索引,这些文本对检索增强生成(RAG)系统的影响也将开始显现,对未来信息生态的健康发展可能构成隐性挑战。

我们构建并迭代运行了一个模拟LLM生成文本不断涌入网络数据集的管道,并通过迭代运行评估其对RAG系统性能的影响。研究表明,LLM生成文本在短期内通常会改善检索效果,但从长期来看,将引起检索效果显著下降,而生成性能则保持稳定。进一步分析发现,信息检索(IR)系统对LLM生成文本存在偏好,导致其在搜索结果中持续排名靠前,进而使人类创作内容的可见性和影响力下降,形成了一种数字“沉默螺旋”效应。

这一效应揭示了LLM生成文本对信息生态系统的潜在负面影响:尽管短期内提供了更有效的检索体验,但长期来看可能导致人类创作内容的隐形、搜索结果的同质化以及某些准确信息的难以获取,从而对公共知识获取和决策产生不利影响。本报告也将对其他探究LLM生成内容影响的工作进行简要介绍。

分享内容大纲

  • Neural IR中的来源偏差 

  • RAG中的“沉默螺旋” 

  •     怎样构造合理的环境来模拟LLM生成文本涌入互联网 

  •     LLM生成文本对RAG系统的短期影响 

  •     短期影响是否能递推到长期 

  •     量化解释现象 

  •     其他因素探究 

  • 其他相关工作简介

31f44798e2f5b07f0512c2a79804d989.png

陈晓阳,中国科学院大学2022级博士生。主要从事信息检索、大语言模型方向的研究工作。在ACL、SIGIR、ECIR等国际学术会议发表多篇论文。担任ECIR、EMNLP、TOIS等领域重要国际会议/期刊审稿人。以第一作者身份在NLP顶级国际会议ACL 2024发表的论文获得领域主席奖。

本期编辑:聂耳聪

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值