鸡尾酒效应：LLM时代的信息检索新基准

AI智语狂想

已于 2024-06-24 11:34:04 修改

阅读量519

点赞数 10

分类专栏： LLM论文日更文章标签：人工智能 nlp

于 2024-06-24 10:57:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_59084968/article/details/139919527

版权

LLM论文日更专栏收录该内容

16 篇文章 0 订阅

订阅专栏

论文：https://arxiv.org/pdf/2405.16546v1

代码：https://github.com/KID-22/Cocktail

人大高瓴联合华为诺亚和中科院计算所提出了一个全新的信息检索（IR）基准测试——Cocktail，它特别针对大型语言模型（LLM）生成的内容（AIGC）对IR系统的影响进行了评估。

1. 研究背景与动机

LLM的兴起：随着大型语言模型的发展，AI生成内容在互联网上日益增多，这对传统的以人类编写内容为主的IR系统构成了挑战。
现有基准的局限性：现有的IR基准测试未能充分反映LLM时代的特点，即缺乏对人类编写和LLM生成内容混合的评估。

2. Cocktail基准测试

数据集多样性：Cocktail包含16个不同的数据集，覆盖多个领域和任务，既有领域内（in-domain）也有领域外（out-of-domain）的评估设置。
混合数据源：数据集结合了人类编写和LLM生成的文本，以模拟现实世界中IR系统可能遇到的混合数据环境。
NQUTD数据集：特别引入了一个新的数据集，包含最近事件的查询，以评估IR系统对最新信息的处理能力。

3. 实验设计与评估

模型评估：对超过十个最先进的检索模型进行了评估，包括基于Transformer的神经检索模型和基于BM25的词汇检索模型。
评估指标：主要使用归一化折扣累积增益（NDCG@K）作为主要的评估指标，同时考虑了源偏差（source bias）。

4. 主要发现

源偏差问题：研究发现神经检索模型普遍存在对LLM生成内容的偏好，这种偏差在不同数据集和任务中普遍存在。
性能与偏差的权衡：在追求高排名性能的同时，模型可能会不自觉地增加对LLM生成内容的偏好，这表明在设计新一代IR模型时需要在性能提升和偏差减轻之间找到平衡。

5. 贡献与资源

Cocktail基准：作为首个综合基准，为LLM时代的IR研究提供了基础资源。
开源工具：提供了开源的评估工具和代码，便于其他研究者评估新模型和数据集。
实证研究：通过广泛的实验揭示了神经检索模型在性能和偏差之间的权衡。

6. 未来工作与限制

基准的扩展性：随着IR领域的不断发展，Cocktail基准也需要不断更新，包括更多领域的数据集。
数据集规模：NQUTD数据集的规模有限，未来的工作可以扩大这一数据集，以支持更广泛的评估。
模型多样性：目前基准中的LLM生成内容主要由Llama2生成，未来的研究可以考虑使用多种LLMs生成的内容。

本文首发于公众号：AI智语狂想，欢迎关注。

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
鸡尾酒效应：LLM时代的信息检索新基准

人大高瓴联合华为诺亚和中科院计算所提出了一个全新的信息检索（IR）基准测试——Cocktail，它特别针对大型语言模型（LLM）生成的内容（AIGC）对IR系统的影响进行了评估。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI智语狂想 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。