MarkBERT: Marking Word Boundaries Improves Chinese BERT
作者觉得现有的基于words作为一个unit的方式,对于OOV和中文并不十分适用。
提出的markbert,是在以词组为切割的基础上,还加入了marker标记。
预训练任务包括两种:
The first task is masked language modeling and we
also mask markers such that word boundary knowledge can
be learned since the pre-trained model needs to recognize
the word boundaries within the context. The second task is
replaced word detection. We replace a word with artificially
generated words and ask the markers behind the word to predict whether the word is replace
在replace word detection中,混淆词的构造可以是多种多样的。我们采取了两种简单的策略:(1)我们使用同义词作为混淆;(2)我们使用中文中语音(拼音)相似的词。为了获得同义词,我们使用Zhang和Yang(2018)提供的外部词汇嵌入。我们计算单词之间的余弦相似度,并使用最相似的单词作为同义词混淆。为了获得基于语音的混淆,如图2所示,我们使用一个外部工具来获得单词的语音,并选择一个与之混淆的单词共享相同的语音。
模型结构
作者觉得,这种预训练方式更有助于中文NER中的marker标记下的识别。我不觉得特备好。而且论文的实验上,做的并不是很充分。