文献阅读：Large Language Models are Null-Shot Learners

Espresso Macchiato

于 2024-02-25 18:28:27 发布

阅读量982

点赞数 24

分类专栏：文献阅读文章标签： NullShot Prompt 提示词工程 prompt优化 LLM LLM幻觉

本文链接：https://blog.csdn.net/codename_cys/article/details/136285509

版权

文献阅读专栏收录该内容

55 篇文章 2 订阅

订阅专栏

文献阅读：Large Language Models are Null-Shot Learners

文献链接：https://arxiv.org/abs/2401.08273

1. 文章简介

这篇文章是立命馆大学在今年1月发表的一篇工作，依然是一个prompt tuning的一个工作，不过蛮有意思的。

这篇文章提出的一个核心方法叫做 $\varnothing$ shot prompt，简单来说就是假装告诉模型给了一些example，然后实际不给，然后让模型进行生成，在这种情况下，发现模型获得了较之普通情况下更好的效果表达，也是挺神奇的。

本质上来说，这篇文章就是注意到了当前LLM无法绕开的幻觉问题，然后反其道而用之，利用模型自身的“幻觉”来辅助生成，获得更好的生成效果。

在这里插入图片描述

下面，我们来具体对文章内容进行一下展开。

2. 方法介绍

首先，我们来看一下 $\varnothing$ shot prompt的具体方法实现。

这部分其实真的很签单，前面说的基本就是全部了，即提示模型prompt中包含一些实际并不存在的example，然后让模型根据这些不存在的example来生成对应的结果。

文中给出了一个具体的实现的示例如下：

在这里插入图片描述

3. 实验考察 & 结论

然后，我们来看一下文中给出的一些关于 $\varnothing$ shot prompt的具体实验。

1. 基础实验

首先，我们来看一下文中关于 $\varnothing$ shot prompt的一些基础实验。

其实主要也就是在不同的模型上使用 $\varnothing$ shot prompt在不同的数据集下进行一下考察。

因此，我们先看一下文中使用了哪些模型以及数据集，然后看一下得到的实验结果以及对应可以得到的结论。

1. 实验设计

我们首先来看一下文献中使用的任务，对应的数据集以及使用的模型：

Arithmetic Reasoning
- AQuA-RAT
- GSM8K
Commonsense Reasoning
- StrategyQA
- WinoGrande
Reading Comprehension
- RACE
Natural Language Inference and Closed-Book Question Answering
- ANLI
- TriviaQA

而模型方面，则是主要使用以下几个模型：

PaLM 2
PaLM 2 for Chat
GPT-3.5 Turbo
GPT-4 Turbo

2. 实验结果

文中得到的实验结果如下：

在这里插入图片描述

可以看到：

$\varnothing$ shot prompt在PaLM2的两个模型上可以普遍地提升模型效果，几乎在所有任务上均有提升效果；
$\varnothing$ shot prompt在PaLM2模型上的效果是明显优于Chat模型的，原因可能由于Chat模型在SFT当中进行了对齐，消除了更多的幻觉；
而在GPT3.5 Turbo模型当中， $\varnothing$ shot prompt带来了最大的效果提升；
在GPT4 Turbo模型当中， $\varnothing$ shot prompt基本没有效果。

对于上述现象，文中给出的一个基础解释就是：

$\varnothing$ shot prompt本质上是利用的模型自身的幻觉来进行辅助生成，因此，模型训练的越好，幻觉越弱， $\varnothing$ shot prompt能够带来的效果增益就越弱，反之，模型越容易生成幻觉， $\varnothing$ shot prompt能够带来的效果增益就越大。

基于此，文中甚至提出可以使用这个现象来通过 $\varnothing$ shot prompt对模型本身的幻觉程度进行一个评估。

2. 消融实验

除了上述基础实验当中的实验效果之外，文中还给出了一些消融实验来对 $\varnothing$ shot prompt进行更细节的考察，具体来说，包括：

小模型上 $\varnothing$ shot prompt的有效性
是否与其他prompt tuning策略兼容
$\varnothing$ shot prompt的位置是否对效果有影响
$\varnothing$ shot prompt的组成本身对效果的影响

下面，我们来对这些内容逐一进行一下整理。

1. 小模型上的有效性

首先，关于 $\varnothing$ shot prompt在小模型上的有效性，文中在LLama 2 7B模型上进行了一下考察，得到结果如下：

在这里插入图片描述

可以看到：

$\varnothing$ shot prompt在LLama 2 7B上有较好的效果表达，但是在LLama 2 7B Chat上面的效果并不好，这不仅证明了 $\varnothing$ shot prompt在小模型上的有效性，且同样复现了前述 $\varnothing$ shot prompt在Chat模型上效果更差的现象，说明对齐消除幻觉确实会减弱 $\varnothing$ shot prompt的效果。