《Revisiting Pre-trained Models for Chinese Natural Language Processin》
to appear at Findings of EMNLP 2020
链接:https://arxiv.org/abs/2004.13922
EMNLP,是自然语言处理经验方法会议(Conference on Empirical Methods in Natural Language Processing),是由国际语言学会(ACL)下属的SIGDAT小组主办的自然语言处理领域的顶级国际会议,也是自然语言算法的A类会议。
摘要
BERT在很多NLP任务中都表现出了惊人的提升效果,很多BERT变体的提出,更进一步地提升了预训练模型的性能。
本文主要针对中文预训练模型,检验在非英语语言中的有效性。
提出了MacBERT,在多个方面提升了RoBERTa。采用MLM as correction(Mac)的策略。
在8个NLP任务上进行了实验,重新审视之前的一些预训练模型和本文提出的MacBERT。实验结果表明,MacBERT在很多NLP任务上能够达到SOTA。
结论
在本篇文章中:
- 重新审视了中文预训练模型,查看这些模型能否推广到除英语外的其它不同语言当中。
- 提出新模型MacBERT,使用MLM任务作为语言纠错方式,缓解预训练和微调阶段的差异。
- 在中文NLP任务上进行了广泛实验,MacBERT在很多任务上,效果都有提升。
- 消融实验显示:应该关注MLM任务,而非NSP任务及其变体。
未来工作
研究一种有效的方法来确定掩码的比率,而非启发式方法,以进一步提高预训练语言模型的性能。
启发式算法一段很好的解释
Dr.h https://www.zhihu.com/question/27666809/answer/826889734
介绍
BERT(Bidirectional Encoder Representaitions from Transformers)非常流行,且在最近的NLP研究中证明是有效的。其利用了大规模的未标记训练数据,生成了丰富的上下文表示。
机器阅读理解基线中(SQuAD (Rajpurkar et al., 2018), CoQA (Reddy et al., 2019), QuAC (Choi et al., 2018), NaturalQuestions (Kwiatkowski et al.,2019), RACE (Lai et al.,2017)),性能最高的模型仍是基于BERT和BERT变体的 (Dai et al., 2019; Zhang et al., 2019; Ran et al., 2019)。
预训练语言模型已成为自然语言处理新的基础组件。
从BERT开始,社区在优化预处理语言模型方面取得了巨大而快速的进步。例如:
ERNIE (Sun et al., 2019a), XLNet (Y ang et al., 2019), RoBERTa (Liu et al., 2019), SpanBERT (Joshi et al., 2019), AL-BERT (Lan et al., 2019), ELECTRA (Clark et al., 2020)
然而,训练基于Transformer的预训练语言模型,不像过去训练单词嵌入或其它传统NN一样容易。如:训练BERT-Large模型,含有24层Transformer和3.3亿个参数,想要瘦脸需要高内存计算设备,比如TPU(贵)。
虽然很多预训练语言模型已发布,但很少有人致力于在其他语言上构建强大的预训练语言模型。
这篇论文,会重新审视现有的流行预训练语言模型,将其调整为中文,构建中文预训练语言模型,看模型能否在英语以外的语言被很好地推广。
提出了新的预训练语言模型MacBERT,将原来的MLM任务替换为MLM as Correction(Mac)任务,减少了预训练和微调阶段的差异。
在八个流行的中文自然语言处理数据集上进行了广泛的实验,从句子级到文档级,如机器阅读理解、文本分类等。
结果表明,与其它预训练语言模型相比,MacBERT在大多数任务中可以获得更显著的提升。
本文贡献:</