©原创作者 |疯狂的Max
背景及动机
大部分中文预训练模型都以单个字作为基础单元,而忽略了中文是以词语为最小语义单元的语言特性。
与英文不同,中文词语并不会以空格隔开,因此预训练模型在中文任务上都直接以单个字符来进行模型构建,但是事实上单个的中文字是带有歧义的,比如“拍”在词语“球拍”和“拍卖”中带有的语义完全不同。
近来的研究也表明将分词信息融入预训练模型中,可以让预训练模型更好的理解语义并在不同的中文下游任务提升表现。
而以此为动机,作者提出通过对预训练模型中注意力机制的拓展来为预训练模型注入分词信息,这也就意味着需要面临两个挑战:
1)如何在预训练模型中将分词信息无缝融入以字符为基础的注意力模块中;
2)如何消除不同粒度的中文分词工具带来的误差。
针对以上两个挑战,作者提出一种新的模型结构,即Multi-source Word Aligned Attention(MWA)。
一方面,语言心理学上提出阅读者对每个词中的每个字符会给予同等程度的关注,受此启发,作者通过mixed pooling strategy[5]将同一词语中的每个字符都赋予聚合后的统一的attention权重;另一方面,为减少不同分词工具带来的误差,作者取用多个分词结果,并通过融合的方式将各个分词策略下的结果融合到一起。
正如下表Table 1所示,不同分词工具会有不同粒度的分词结果,通过融合的方式可以隐式地降低不同粒度分词所导致的误差。
作者提出的MWA模型,在包括情感分类,命名实体识别,语义匹配,自然语言推理和阅读理解等各项中文的NLP任务上都明显超越BERT[2],ERNIE[3]和BERT-wwm[4]模型。
模型方法
1.字符级别的pre-trained encoder
MWA模型的主要任务是为了在字符级别的representation中加入分词知识,因此作者直接