论文解读：词语对齐的注意力机制，提升中文预训练模型效果

VIP文章 NLP论文解读

于 2022-01-13 10:51:16 发布

阅读量365

点赞数

文章标签：自然语言处理人工智能 nlp 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NLPlunwenjiedu/article/details/122468725

版权

©原创作者 |疯狂的Max

背景及动机

大部分中文预训练模型都以单个字作为基础单元，而忽略了中文是以词语为最小语义单元的语言特性。

与英文不同，中文词语并不会以空格隔开，因此预训练模型在中文任务上都直接以单个字符来进行模型构建，但是事实上单个的中文字是带有歧义的，比如“拍”在词语“球拍”和“拍卖”中带有的语义完全不同。

近来的研究也表明将分词信息融入预训练模型中，可以让预训练模型更好的理解语义并在不同的中文下游任务提升表现。

而以此为动机，作者提出通过对预训练模型中注意力机制的拓展来为预训练模型注入分词信息，这也就意味着需要面临两个挑战：

1）如何在预训练模型中将分词信息无缝融入以字符为基础的注意力模块中；

2）如何消除不同粒度的中文分词工具带来的误差。

针对以上两个挑战，作者提出一种新的模型结构，即Multi-source Word Aligned Attention(MWA)。

一方面，语言心理学上提出阅读者对每个词中的每个字符会给予同等程度的关注，受此启发，作者通过mixed pooling strategy[5]将同一词语中的每个字符都赋予聚合后的统一的attention权重；另一方面，为减少不同分词工具带来的误差，作者取用多个分词结果，并通过融合的方式将各个分词策略下的结果融合到一起。

正如下表Table 1所示，不同分词工具会有不同粒度的分词结果，通过融合的方式可以隐式地降低不同粒度分词所导致的误差。

作者提出的MWA模型，在包括情感分类，命名实体识别，语义匹配，自然语言推理和阅读理解等各项中文的NLP任务上都明显超越BERT[2]，ERNIE[3]和BERT-wwm[4]模型。

模型方法

1.字符级别的pre-trained encoder

MWA模型的主要任务是为了在字符级别的representation中加入分词知识，因此作者直接

最低0.47元/天解锁文章

NLP论文解读

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文解读：词语对齐的注意力机制，提升中文预训练模型效果

论文解读：词语对齐的注意力机制，提升中文预训练模型效果
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NLP论文解读 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。