论文解读:词语对齐的注意力机制,提升中文预训练模型效果

©原创作者 |疯狂的Max

图片

背景及动机

大部分中文预训练模型都以单个字作为基础单元,而忽略了中文是以词语为最小语义单元的语言特性。

与英文不同,中文词语并不会以空格隔开,因此预训练模型在中文任务上都直接以单个字符来进行模型构建,但是事实上单个的中文字是带有歧义的,比如“拍”在词语“球拍”和“拍卖”中带有的语义完全不同。

近来的研究也表明将分词信息融入预训练模型中,可以让预训练模型更好的理解语义并在不同的中文下游任务提升表现。

而以此为动机,作者提出通过对预训练模型中注意力机制的拓展来为预训练模型注入分词信息,这也就意味着需要面临两个挑战:

1)如何在预训练模型中将分词信息无缝融入以字符为基础的注意力模块中;

2)如何消除不同粒度的中文分词工具带来的误差。

针对以上两个挑战,作者提出一种新的模型结构,即Multi-source Word Aligned Attention(MWA)

一方面,语言心理学上提出阅读者对每个词中的每个字符会给予同等程度的关注,受此启发,作者通过mixed pooling strategy[5]将同一词语中的每个字符都赋予聚合后的统一的attention权重;另一方面,为减少不同分词工具带来的误差,作者取用多个分词结果,并通过融合的方式将各个分词策略下的结果融合到一起。

正如下表Table 1所示,不同分词工具会有不同粒度的分词结果,通过融合的方式可以隐式地降低不同粒度分词所导致的误差。

作者提出的MWA模型,在包括情感分类,命名实体识别,语义匹配,自然语言推理和阅读理解等各项中文的NLP任务上都明显超越BERT[2],ERNIE[3]和BERT-wwm[4]模型。

模型方法

1.字符级别的pre-trained encoder

MWA模型的主要任务是为了在字符级别的representation中加入分词知识,因此作者直接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP论文解读

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值