【NLP】中文BERT上分新技巧,多粒度信息来帮忙

文 | ????????????????

自然语言处理实在是太难啦!中文尤其难!

相比于英文,中文是以词作为语义的基本单位的,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”,怎么让模型分出“研究|生活”,而不是“研究生”呢?

随着预训练模型的到来,中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论:基于“字”的模型要好于基于“词”的模型。但是,中文是以词作为语义的基本单位的呀,忽略这种粗粒度的信息,真的合理吗?

今天这篇发表在 NAACL 2021 的文章就让 BERT 在预训练中学到了字和词的信息,在自然语言理解的多个任务上,相对字级别的模型取得了性能提升,轻松摘得 SOTA。以后做中文任务想要刷分,可以直接拿来换掉自己的 BERT

这篇文章为了让 BERT 学到字和词的信息,解决了三个问题:

  1. 怎么将字和词的信息融合,送入 BERT?

  2. 字和词有重叠,位置编码怎么设计?

  3. 在 MLM 任务上,怎么才能同时将字和词的信息都 mask 掉?

下面就来看看这篇文章的解决办法吧~

论文题目:
Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
论文链接:
http://arxiv-download.xixiaoyao.cn/pdf/2104.07204v1.pdf
代码地址
https://github.com/alibaba/AliceMind/tree/main/LatticeBERT

方法

词格输入

为了解决问题 1,本文是将词格(word lattice)输入 BERT。

中文的词格图(lattice graph)是一个有向无环图,包含了句子里字和词的所有信息。以“研究生活很充实”这句话为例,词格如下图所示:

读到这里可能会有人疑惑了:BERT 只能处理序列呀?这样的有向无环图该怎么被 BERT 处理呢?简单!这篇文章直接将词格图中各粒度的信息“拍平”,得到一个线性序列,作为 BERT 的输入。其中的每一项无论是字还是词,我们都称为 token:

词格注意力机制

“拍平”词格的输入,就会造成不可避免的重复和冗余,那么对于位置编码,该怎么适应呢?另外,在“拍平”之后,原先二维的复杂图结构信息就会有所损失,怎样避免图结构的损失呢?为了解决问题 2,这篇文章又设计了新的词格注意力机制。

对于字级别的 BERT,计算 attention map 可以表达为两个字向量的内积:

其中 分别是第 个字在第 层的表示。字级别 BERT 中,位置编码是在输入时,直接加到字的表示中的:

然而,很多工作 [2] 表明,这种在输入中混合位置编码的方式比较粗糙。在计算 attention map 时,将位置编码与字的表示解耦,专门设计一个位置编码的函数,会是一个更好的选择:

这里 就是关于 两个字的位置编码的函数。本文也采取了这一类方法。具体地,attention map 可以通过四项相加的方式得到:

第一项是字的表示得到的 attention score,后面三项都是与位置编码相关的,下面我就来一一介绍~

  1. 绝对位置编码

绝对位置编码表示了 token 在句子中的位置。式子里的 表示当前输入 token 的开始位置, 表示结束的位置。这个式子就表示将 token 的起始位置的绝对位置编码拼接,进行 attention 操作。

这一项可以说是对原始 BERT 中的位置编码的复刻,并适应了词格的输入。因为词格输入的每一项长度是不固定的,引入头尾位置也是自然的想法。

然而,绝对位置编码是有缺陷的:在理论上,我们对绝对位置编码的限制只有一点,即不同位置的编码不同。但这样就忽略了很多信息,比如,位置 1 和 2 的距离与位置 5 和 6 的距离应该一样,位置 1 和 3 的距离比位置 4 和 10 的距离要小,等等。在绝对位置编码的设计里,我们只能让 BERT 隐式地“学习”。

  1. 相对位置编码

因此,这篇文章也引入了相对位置编码,来表示 token 之间的相对距离。式子右边每一项都代表两个 token 的起始位置之间的相对距离,例如, 表示两个 token 的起始位置之间的相对距离 的表示。引入了相对位置编码,模型就可以建模更长的文本。

  1. 层叠关系编码

表示两个 token 之间的层叠关系。根据这两个 token 起始相对位置的不同,两个 token 可以分成下列七种关系:

具体来说,这七种关系为:

  1. 自身

  2. 在左边,且无重叠

  3. 在左边,且有重叠

  4. 包含关系

  5. 被包含关系

  6. 在右边,且有重叠

  7. 在右边,且无重叠

将 token 之间的关系分成以上七种,就可以显式地表示词格图中的复杂的二维关系。之前“拍平”词格图时削弱的信息,在这里又找回来了。

预训练任务:整段预测

最后一个问题:原来的 MLM 任务在词格输入的形式上,似乎并不适用。

还是用“研究生活很充实”来举个例子。这句话的词格输入将是这样:

研 究 生 活 研究 研究生 生活 很 充 实 充实

词格的输入带来了冗余,在 MLM 任务中,我们随机 mask 掉一些 token,是希望通过其上下文预测这些 token。但是在词格输入里,比如我们随机 mask 掉了“研究”,但是模型会直接通过前面的“研”“究”和后面的“研究生”来预测这个 mask token,这样走捷径,最终一定得不到好结果。

于是,这篇文章设计了整段预测任务(masked segment prediction):在词格图中,一句话将被切成多个段(segment),每个段之间不会有重叠的 token,同时也要使段的长度最小。“研究生活很充实”这句话就可以切成下图的三段:

在整段预测任务中,直接 mask 掉一段里的所有 token,并预测这些 token。这样就可以避免输入的冗余让模型“作弊”。

实验

这篇文章使用句子里所有可能的词来构建词格图,这样尽管会带来错误的分词,但是让模型自己学习降噪,还能提升模型的鲁棒性。

这篇文章在 11 个任务上进行了实验,11 个任务包括:

  • 6 个文本分类任务:长文本分类、短文本分类、关键词提取、指代消解、自然语言推断和文本匹配;

  • 2 个序列标注任务:分词和命名实体识别;

  • 3 个问答任务:机器阅读理解(答案段选取)、选择题、完形填空。

总体性能如下图所示:

其中,RoBERTa 是哈工大的 roberta-base-wwm-ext;NEZHA 是最好的字级别中文预训练模型,来自华为诺亚方舟研究院;AMBERT 是曾经多粒度中文预训练模型的 SOTA,是字节跳动李航组的工作;BERT-word 是使用词作为输入的 BERT;LBERT 是本文的方法;BERT-our 是本文使用相同语料重新预训练的 BERT。

可以发现,LBERT 优于所有字级别的预训练模型,并在 7/11 个任务上取得 SOTA。

LBERT 在哪里强于字级别的 BERT 呢?作者对预测结果进行分析,得到如下结论:

  • 在短文本分类任务上,LBERT 在更短的样本上有更大的性能提升,作者认为,词格输入的冗余信息为短文本提供了更丰富的语义信息;

  • 在关键词提取任务上,LBERT 在词级别的关键词上性能提升更高,作者认为 LBERT 从词格输入中,理解了关键词的语义;

  • 在命名实体识别任务上,LBERT 在重叠实体的样本上减少了 25% 的错误,这是词格输入带来的天然优势;

LBERT 是怎么运用多粒度的信息呢?作者对注意力分数进行了可视化,还用“研究生活很充实”这句话为例:

图中的三行分别为:

  • 在预训练结束后,模型会关注句子的各个部分;

  • 在命名实体识别任务上 fine-tune 之后,模型更关注“研究”“生活”“很”“充实”,这与正确的分词结果是一致的,对命名实体识别任务也是非常关键;错误分词的“研究生”就没有得到注意力;

  • 在文本分类任务上 fine-tune 之后,模型更关注“研究生”“生活”“充实”,尽管这些词不能在一套分词中同时存在,但是对分类都是有用的。

总结

这篇文章解决了三个问题:

  1. 怎么输入?使用词格(lattice)作为 BERT 的输入;

  2. 位置编码?设计了词格注意力机制(lattice position attention),使模型真正习得词格整张图的信息;

  3. MLM?设计了整段掩码预测任务(masked segment prediction),避免模型从词格的多粒度输入中使用捷径。

这样一来,就能在 BERT 中融合字和词信息,也在多个任务上拿到 SOTA。

另外,这种词格的输入看上去也是优点多多:对于短文本的任务,词格输入可以作为一种信息的增强;对于和词相关的任务,输入的词能让模型更好的理解语义;对于抽取的任务,词格能帮助定位抽取的边界。

这里还延伸出一个问题:英文是不是也可以利用多粒度的信息呢?中文的预训练模型可以使用字和词的信息,相似地,英文就可以使用 subword 和 word 信息,这样是不是有效呢?

萌屋作者:????????????????

在北大读研,目前做信息抽取,对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心 ヾ(=・ω・=)o

作品推荐

  1. 老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

  2. 谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了...

往期精彩回顾



适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑温州大学《机器学习课程》视频
本站qq群851320808,加入微信群请扫码:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值