论文《Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning》学习笔记

论文链接: https://arxiv.org/abs/2109.04144

1. Motivation

在进行 sentence pair classification 的时候,如果是 few-shot learning, 使用 prompt-based finetuning 很容易产生启发式推理(Inference Heuristics)的问题(即:模型会因为一个句子对由同一个单词组成,从而假设这个句子对具有相同的含义), 然而这个问题在 zero-shot learning 下不会出现,这说明 finetuning 对 PLM 中的知识产生了很大的负面影响(灾难性遗忘),因此,作者旨在解决 few-shot learning下 prompt-based finetuning 的上述问题。

2. Contribution
  1. 证明zero-shot prompt-based模型在推理过程中使用词汇重叠启发式具有鲁棒性,且在相应的挑战数据集上具备较高性能;
  2. 在prompt-based finetuning 基础上提出了一个基于EWC正则化的rFT方式,该方式在一定程度上可以解决Inference Heuristics的问题。
3. Method

作者使用RoBERTa-large模型对每个数据集和每个跨数据大小 K K K进行5个数据子采样,其中 K ∈ 16 、 32 、 64 、 128 、 256 、 512 K∈{16、32、64、128、256、512} K163264128256512,表示每个标签的示例数量。然后提出了一种基于弹性权重整合(EWC)方法对prompt-based finetuning进行正则化。EWC是建立在 Fisher 矩阵之上专门用来解决灾难性遗忘问题,而Fisher矩阵也需要一部分的预训练数据,为了忽略这一点,作者假设Fisher信息和对应的权重具有很强的独立性,因此总的损失函数更新如下:

L r F T = α L F T + ( 1 − α ) λ 2 ( θ i − θ i ∗ ) 2 L_{rFT}=\alpha L_{FT}+(1-\alpha)\frac{\lambda}{2}(\theta_i-\theta_i^*)^2 LrFT=αLFT+(1α)2λ(θiθi)2

其中 L F T L_{FT} LFT为标准交叉熵, λ \lambda λ为二次惩罚系数, α \alpha α是将这两项线性组合的系数。优化器的实现使用的是Chen的RecAdam。

4. Experiments

请添加图片描述

Datasets:在GLUE benchmark中的MNLI,SNLI,和QQP数据集上进行测试,其中每个数据集有in-distribution和challenge(研究人员为上述数据集构建了相应的挑战集,设计包含反对启发式的例子)两个部分。

Baseline:图中FT-fixn为baseline模型,将预训练的前n层进行简单权重固定,其中n层 n ∈ 6 , 12 , 18 n∈{6,12,18} n6,12,18被冻结(包括标记嵌入),整个微调过程中只更新上层和LM头的权重。

Results:文章通过对512个例子(对于每个标签)进行调整后的中值性能来评估所有考虑过的调整策略,并将它们与原始的zero-shot性能进行比较,结果如下:

  1. 冻结层数具有不一样的结果,例如,基于FT-fix18模型时,FT在Hans和PAWS的challenge和avg得到改进,但在in-distribution上性能有所降低;
  2. 本文提出的L2正则化策略rFT在challenge上得到了改进,且在in-distribution上仅略有降低;
  3. 虽然prompt-based finetuning的性能较差,但在每个in-distribution和challenge的avg上,它仍然好于单纯的 finetuning 方法(即使用 classification head)。

请添加图片描述

图2显示了rFT在MNLI和Hans上有使用正则化和无正则化之间的差异值,可以看出:避免 Inference Heuristics 上,rFT 的效果比 finetuning 好,在non-entailment上的准确率有所提高,但还不及 zero-shot。

5. Thinking

刚开始对于prompt还有few-shot learning不太理解,所以对它们首先进行了一定的了解,同时这篇文章用到了HANS数据集,刚开始看的时候被MNLI和HANS数据集之间迷糊了一阵子,但瞧了论文《Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference》后,也有所理解,以下是引用论文中的一部分表述,该表述也表示了HANS作为挑战集所存在的难点,即entailment和non-entailment之间预测区域两极化。

That is, they nearly always predicted entailment for the examples in HANS, leading to near-perfect accuracy when the true label is entailment, and near-zero accuracy when the true label is non-entailment.

不得不说,图2我思考了挺久的,文中提出的rFT方式虽然使得non-entailment的预测准确率提高了,而entailment的准确率却有所降低,那么是如何体现rFT方式是可以解决motivation中所提到的问题呢?难道本文中考虑到的是overall accuracy而不是单一的准确率吗?

这篇文章主要是解决prompt-based finetuning 中产生的Inference Heuristics问题,而HANS数据集其中包含了许多启发式方法失败的例子,那么能不能说该文章主要的目的就是提出一个方法,该方法在HANS数据集上获得较高的准确率?——可以这么说

文中只是提出了一个假设,然后通过实验证明了这个假设,是不是解决了,而且是不是需要解决这个Inference Heuristics,论文是没有充分证明的

该文章的idea可以参考:发现存在某种问题,然后根据某种方法能解决这类问题,进而提升性能。

参考

知乎 闵映乾

知乎 刘鹏飞

知乎 Pikachu5808

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
关于证明三维self-avoiding random walk是transient的问题,其实这是一个非常复杂的数学问题,需要用到大量的数学知识和技巧。不过,我们可以简单地了解一下这个问题以及一些相关的概念。 首先,self-avoiding random walk是指在一个普通的随机游走的基础上,排除了走过的路径上出现的重复点,也就是说,每次只能向前走一步,而且不能走回已经走过的点。这个模型可以被用来描述一些物理、化学、生物学以及计算机科学等领域中的现象,比如高分子链的构象以及蛋白质的折叠等。 关于transient这个概念,简单来说,就是指这个随机游走的轨迹最终会离开某个特定的区域,并且不会回到这个区域中。这个区域可以是一个点、一条直线、一个平面,或者更一般地,一个固定的几何形状。相反,如果一个随机游走的轨迹在某一个区域中反复徘徊,那么这个随机游走就是recurrent的。 现在来考虑三维self-avoiding random walk是transient的问题。关于这个问题,已经有一些比较成熟的结论。比如,经典的Hammersley-Welsh定理指出,在三维空间中,self-avoiding random walk是transient的,也就是说,其轨迹最终会离开某个特定的区域,并且不会回到这个区域中。这个定理的证明非常复杂,需要用到很多高度抽象的数学工具,比如Brownian motion、Poisson point processes等等。 总之,证明三维self-avoiding random walk是transient的是一个非常复杂的数学问题,需要用到很多高深的数学技巧和知识。以上只是一个简单的介绍,希望对您有所帮助。如果您对这个问题还有其他的疑问,可以再问我,我会尽力为您解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值