【论文笔记】在CommonsenseQA 上追平人类: 通过External Attention 增强 Self-Attention

Human Parity on CommonsenseQA: Augmenting Self-Attention with External Attention

 论文链接:https://www.microsoft.com/en-us/research/uploads/prod/2021/12/CSQA_KEAR.pdf

Abstract

目前大多数都专注在self-attention 和Transformer架构来提升性能。

本文:使用外部attention机制来增强Transformer架构,将上下文与外部知识结合。将外部信息整合到预测过程。提出了Knowledgeable External Attention for commonsense Reasoning (KEAR)常识推理的知识外部注意,在开放的 CommonsenseQA 研究基准上达到人类同等水平,准确度为 89.4%,而人类准确度为 88.9%

 Introduction

Transformer模型开发过程中规模较大的模型往往具有更好地学习能力,尤其是与大规模数据结合。但大量研究表明,这些巨大模型的相应理解和生成能力仍然落后于人类(Bommasani et al., 2021)。此外,这些模型的庞大规模已经在利用、部署、解释和环境影响方面带来了严重的实际挑战,因此基于Transformer的NLP建模的“放大”方法受到质疑。

self-attention机制旨在让模型更好地分析输入数据内部结构,并训练模型使其参数掌握并记住训练数据的所有内容和模式。当给模型一个新的输入 X 时,参数中隐含存储的相关信息知识被激活,以促进对 X 的分析。这可以部分解释为什么用更多数据预训练的较大模型在性能上具有优势。

虽然Transformer模型通过self-attention机制look inward处理输入,但本文通过为模型提供各种来源的相关上下文和知识来使模型look outward;然后让模型对输入进行self-attention,同时计算对知识的外部关注(如图1)

(上下文和知识通常可以以非参数和符号的方式存储(例如,纯文本、知识图和字典条目))

 Figure 1: Our proposed method of Knowledgeable External Attention for commonsense Reasoning (KEAR).Related knowledge is retrieved from external sources, e.g., knowledge graph, dictionary and training data, using the input as key and then integrated with the input. While additional external attention layers can be added to the Transformer blocks, we adopt text-level concatenation for external attention, incurring no structural change to the model architecture.

给定一个常识性问题和一个选择,从三个外部来源检索知识:知识图(ConceptNet)、字典(Wiktionary)和标记的训练数据(CommonsenseQA 和 16 个相关的 QA 数据集)

检索到的知识直接附加到输入并发送到语言模型,而无需对底层架构进行修改。

本文方法优于commonsense reasoning(常识推理)

首先,外部注意力极大地减少了我们系统对大规模模型的依赖,即通过高达 1.5B 参数的模型实现了人类平等。其次,外部信息是通过信息检索和单词匹配等计算效率高的方法获得的,增加了很少主模型的计算成本。最后,输入和知识的文本级连接不会导致 Transformer 模型发生变化,使现有系统能够轻松采用这种新的外部注意机制。

外部注意力的另一个好处是,由于相关知识存储在模型之外,可以轻松地更新知识源以改变其模型。

Method

外部注意力框架

第一个 Transformer 层的输入通常是标记化输入文本的嵌入,表示为

 本文将文本格式的外部知识输入表示为

本文将知识连接到输入H_{0}=

优点是不需要修改现有的模型架构。

外部知识源(以补充输入的问题及选择)

(1)如果实体 有到实体 的直接边r,则选择三元组  

否则检索所有源自e_{c}的三元组,选择其中权重最高的,KG中的知识格式化为:   

 (2)字典可以为单词提供准确的语义解释,本文将问答概念的维基词典定义用作外部知识。

 d_{q}e_{q}的定义文本,d_{c}e_{c}的定义文本。

(3)本文从训练数据中检索相关问题和答案作为附加知识,对于从训练数据中检索到的每个问题,删除知识部分并将检索到的问题及其真实答案用作外部知识。

假设检索到的问题和答案是

本文将训练数据中的知识格式化为: 

 最终,将三个来源检索到的知识连接起来形成最终的知识输入

 Experiments

Data:CommonsenseQA

(单体模型与集成模型)

 比之前最好的 DEKCOR 模型高出 6% 以上,并且比人类表现 (88.9%) 高出 0.5%。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值