《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》
Zijun Sun, Xiaoya Li, Xiaofei Sun, Yuxian Meng, Xiang Ao, Qing He, Fei Wu and Jiwei Li
ACL 2021
https://github.com/ShannonAI/Ch
参考内容:https://zhuanlan.zhihu.com/p/386010496
官方给出的解释超级详细↑,本篇主要属于自己的记录,加深个印象,求轻吐槽!!!∑(゚Д゚ノ)ノ
摘要
问题:最近的中文预训练模型都忽视了中文的两个重要方面:字形、拼音,这两方面都含有对语言理解非常重要的句法和语义信息。
本文:ChineseBERT
- 融合中文字符的拼音、字形信息加入预训练过程。
- 字形嵌入:基于中文字符的不同字体,从可视的表面字符形式中捕捉字符语义,便于能够捕捉视觉特征。
- 拼音嵌入:表征了汉字的读音,对共享相同字符形式的不同语义进行建模,从而绕过了单个字符后面的互连语素的限制,处理了汉语中高度普遍的异音(多音字)现象。
在大规模未标记的中文语料库上进行预处理后,性能有所提升。
在很多中文中文自然语言处理任务上,达到了SOTA水平。
结论
大规模预处理的中文自然语言处理模型
利用汉字的字形和拼音信息,来增强模型从表面字符形式中捕捉上下文语义和消除汉语多音字歧义的能力。
在广泛的中文自然语言处理任务中取得了显著的性能提升。
在训练数据较少的情况下比普通的预训练模型表现更好。
未来工作
训练一个规模更大的ChineseBERT
介绍
大规模预训练模型,已经成为各种自然语言处理任务的基础。除了英语自然语言处理任务外,对汉语也很有效。但由于预训练模型是为英语设计的,所以缺少了汉语方面的两个重要特征,字形和拼音。
汉字是一种意音文字(偏旁部首氵),故字形会带有语义。有团队研究过,将字形融入到神经模型中,但没有大规模的预训练( (Sun et al., 2014; Shi et al., 2015; Liu et al., 2017; Dai and Cai, 2017; Su and Lee, 2017; Meng et al., 2019))。
拼音在建模语义和语法信息方面至关重要,这些信息不能通过上下文或字形嵌入来获取。多音字会有不同含义,如“乐”,拼音有助于识别字符的词性。字形嵌入和字符标识嵌入都指向同一个字符标识,不包含发音信息。
模型
概述
对于每个汉字字符,字嵌入(Char Embedding)、字形嵌入(Glyph Embedding)和拼音嵌入(Pinyin Embedding)首先进行串联,然后通过全连接层映射为一个D维嵌入,从而得到融合嵌入(Fusion Embedding)。
融合嵌入与位置嵌入相加,形成BERT模型的输入。
因为这里没有使用NSP预训练任务,所以省略了segment embedding。
在预训练阶段使用了全词