论文笔记:How Can We Know What Language Models Know?

论文链接: https://arxiv.org/abs/1911.12543

代码开源: GitHub - jzbjyb/LPAQA: Language model Prompt And Query Archive  

1. 概要

        论文提出了基于挖掘(mining-based)和基于释义(paraphrasing-based)的方法来自动生成高质量和多样化的提示,以及集成方法来组合来自不同提示的答案,用以更准确地估计 LM 中包含的知识,主要使用的数据集是LAMA。

2. 提示生成

论文为每种实体关系考虑了两种提示模板生成方法:基于挖掘的方法和基于释义的方法。

1)基于挖掘的方法

        首先使用远程监督,从维基百科中提取出包含LAMA数据集主客体并描述了它们之间的关系的句子。以往的研究表明,主客中间的词往往表示关系,因此可以直接用这些词作为提示,例如,通过用占位符替换主语和宾语,“Barack Obama was born in Hawaii” 可以被转换为提示:“x was born in y”。

        论文还指出,主客体之间没有出现文字时(比如“The capitalof France is Paris”),可以使用依存解析器解析句子,找出主客间最短依存路径作为提示,比如上述例子的最短依存路径如下图所示, 可以转换为提示:“capital of x is y”。

2)基于释义的方法

        将原有的提示改为其他语义相似或相同的表达来实现,比如说,如果原始提示是“x shares a border with y”,那可以改写为“x has a common border with y”和“x adjoins y”。这在概念上类似于信息检索中使用的查询扩展技术,后者重新制定给定的查询以提高检索性能。

        论文使用回译的方法来实现释义,即先将原始提示\widehat{t}翻译成其他语言的B个候选\overline{t},然后对于每一个候选再将其翻译回英语,这样就可以得到B^{2}个提示t,最后根据round-trip概率(如下)进行排序选最优的top T个。

3. 提示选择与集成

1)Top-1 Prompt Selection

        对于每一种关系r,分别使用候选提示对训练集预测,只选择使得训练集准确率最高的一个提示作为最终提示。

2)Rank-based Ensemble

        首先,对于每一种关系r,根据训练集准确率对候选提示进行排序,选择前K个提示与输入拼接进行预测,简单将所有提示的输出概率取平均,作为最终输出概率,然后再softmax。

3)Optimized Ensemble

        对于每一种关系r,引入可学习权重,最终输出概率为top T个提示输出概率的加权和。

4. 实验结果

        将基于挖掘的方法生成的提示与手动设计的提示使用可学习权重进行集成,在BERT-base和BERT-large上都取得了最优结果。

5. 分析

1)不同提示的预测一致性分析

使用以下公式计算同一关系r下,不同提示产生的预测之间的发散度:

若提示t_{r,i}能够引导模型预测出正确结果,则C(x,y,t_{r,i})=1,否则为0。以两个提示之间的编辑距离为横轴,预测发散度为纵轴,绘制箱型图如下,随着编辑距离变大,发散度增加,这证实了我们的直觉,即非常不同的提示往往会导致不同的预测结果。Pearson 相关系数为 0.25,说明这两个量之间存在弱相关。

 2)基于词性的提示有效性分析

符合以下三种句法规则的提示比其他提示的平均排名要高:

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值