Re49：读论文 When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parame

诸神缄默不语

于 2023-11-15 17:15:07 发布

阅读量470

点赞数 1

分类专栏：人工智能学习笔记文章标签：语言模型人工智能自然语言处理大规模预训练语言 LLM RAG 检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PolarisRisingWar/article/details/134379302

版权

人工智能学习笔记专栏收录该内容

267 篇文章

订阅专栏

诸神缄默不语-个人CSDN博文目录

论文名称：When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories

ArXiv网址：https://arxiv.org/abs/2212.10511

官方GitHub项目：https://github.com/AlexTMallen/adaptive-retrieval

本文是2023年ACL论文，关注理解LLM中存储的知识（knowledge probing）。
本文中的知识指的是三元组： (subject, relationship, object)
本文发现LLM不擅长长尾事实知识，但这可以用检索增强的方法解决。增大模型尺寸只能增加模型对常见知识的理解。本文提出了一种检索增强方法Adaptive Retrieval，根据知识常见程度自适应选择是否检索，可以提高指标，减少推理代价。
本文主要考虑subject和relationship的常见程度。（为了仅用输入信息就实现判断）

文章目录

1. 研究背景和观察结果
2. knowledge-probling实验
3. 传统RAG实验
4. Adaptive Retrieval
- 实验结果
5. 讨论

1. 研究背景和观察结果

LLM存储的知识（parametric knowledge）有记不住长尾实体、幻觉、知识落后于时代的问题，可以用检索文本（non-parametric knowledge）来解决

在常见实体上，加了检索反而不如不加：
在这里插入图片描述

扩大模型尺寸不能直接解决长尾问题（模型尺寸越大，subject流行度和准确率的相关性越大）
（图像见后文）

2. knowledge-probling实验

1. 任务

零样本/少样本open-domain QA

本文用的是decoder-only模型。encoder-only模型可能会采用[MASK]的形式来解决问题。

仅用prompt工程，不更新模型参数。
Q: <question> A:

2. 数据集

open-domain entity-centric QA datasets

PopQA（14k样本，关注长尾实体）
构建方法：

（文中说具体用什么template不太影响结果）
EntityQuestions
出处：(2023 EMNLP) Simple Entity-Centric Questions Challenge Dense Retrievers

数据集的长尾分布：
在这里插入图片描述

3. 实验用的backbone LLM

GPT-Neo
1.3 2.7 6 20
(2022 BigScience) GPT-NeoX-20B: An Open-Source Autoregressive Language Model

OPT
1.3 2.7 6.7 13
(2022 Meta) OPT: Open Pre-trained Transformer Language Models

GPT-3
davinci-002, davinci-003
(2020 NeurIPS) Language Models are Few-Shot Learners

（本文没用T5是因为T5预训练就已经用过QA了）

GPT-3用的是zero-shot，另外两个模型用的是15-shot（因为贵）

4. 实验结果

评估指标：准确率（输出文本中包含了任意一个object就算正确）

PopQA
结论：LM规模越大越好，subject越常见越好。relationship对效果的影响可能是因为有些relationship格外好猜
从subject实体名猜结果的参考文献：(2020 EMNLP Findings) E-BERT: Efficient-Yet-Effective Entity Embeddings for BERT (2021 ACL) Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases
在这里插入图片描述

EntityQuestions
在这里插入图片描述

scale也对低频样本没啥用（提升不多）：
在这里插入图片描述

不同模型在不同relationship上，不同popularity样本的准确率：（country是靠猜的）
在这里插入图片描述

3. 传统RAG实验

1. 实验设置

增强输入：检索维基百科中问题的相关文本（仅选一个自然段）

扩大上下文本来就能提高效果。参考资料：(2021 EACL) Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering (2022 NAACL) Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks

2. 检索模型

BM25
(2009 Foundations and Trends in Information Retrieval) The Probabilistic Relevance Framework: BM25 and Beyond

Contriever：预训练的检索模型
(2023 TMLR) Unsupervised Dense Information Retrieval with Contrastive Learning

parametric augmentation method, GenRead
(2023 ICLR) Generate rather than Retrieve: Large Language Models are Strong Context Generators

所以一共是4×10个LM

3. 实验结果

检索模型加上去能提升效果：
PopQA：
在这里插入图片描述

EntityQuestions：
在这里插入图片描述

加不加检索这2种准确率与popularity之间的关系：
在这里插入图片描述

上图按照relationship分别绘图：
在这里插入图片描述

在流行实体上，检索结果可能会误导模型：
在这里插入图片描述

上述现象的案例分析：
在这里插入图片描述

4. Adaptive Retrieval

对popularity低于阈值的问题进行检索，其他问题不检索。
阈值通过验证集计算得到（每个relationship都不一样）。

实验结果

在这里插入图片描述
（文字说最好的效果叠的是Contriever，不知道为什么图上写的是BM25）

模型越大，需要检索的问题越少（阈值变化）：
在这里插入图片描述

在这里插入图片描述

减少推理代价（跟需要说很多话的检索模型相比）
用时：
在这里插入图片描述

价格：
在这里插入图片描述

5. 讨论

作者提到的：
1. 实验用的数据集是人造的，不一定能泛化到真实场景下。
2. 效果与pipeline有关
3. popularity这个概念time-dependent
4. subject和relationship的类型
5. 隐私保护和对少数群体的偏见
我的思考：检索怎么都是加文本啊文本已经很长了（卡脖子卡脖子）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

诸神缄默不语 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。