【论文翻译】TiBERT：藏语预训练语言模型

编译运行

已于 2024-08-08 20:08:49 修改

阅读量3.8k

点赞数 5

分类专栏：文献翻译文章标签：深度学习人工智能自然语言处理

于 2023-03-27 21:54:35 首次发布

原文链接：http://tibert.cmli-nlp.com/

版权

文献翻译专栏收录该内容

4 篇文章

订阅专栏

TiBERT——藏语预训练语言模型

摘要

预训练语言模型在大规模无标签文本上进行训练，可以在许多不同的下游任务中获得最先进的结果。然而，目前的预训练语言模型主要集中在汉语和英语领域。对于藏语这样的低资源语言，目前还缺乏单语预训练模型。为了促进藏语自然语言处理任务的发展，本文收集了藏语网站的大规模训练数据，利用Sentencepiece构建了语料库中可以覆盖99.95%单词的词汇。然后，我们在数据和词汇上训练藏语单语预训练语言模型TiBERT。最后，我们将TiBERT应用于文本分类和问题生成的下游任务，并与经典模型和多语言预训练模型进行了比较，实验结果表明TiBERT能够达到最佳性能。我们的模型发表在http://tibert.cmli-nlp.com/上。

索引术语-预训练语言模型，藏语，句子，TiBERT，文本分类，问题生成

1、介绍

以BERT为代表的预训练语言模型改变了自然语言处理的研究范式。这些模型可以在大规模无标记语料库上进行预训练，获得丰富的上下文表征，通过迁移学习，具有小规模标记数据集的下游任务也可以获得更好的性能，解决了低资源语言中标记数据较少的问题。因此，预训练的语言模型对于藏语等低资源语言至关重要。

目前，单语预训练语言模型主要集中在汉语和英语领域，资源较少，尚未得到充分应用。为了解决这个问题，谷歌发布了多语言模型[1]。多语言预训练模型可以同时处理多种语言，并为多种低资源语言的下游任务提供支持。然而，本文分析了现有的多语言预训练模型，包括mBERT[1]、XLM-RoBERTa[2]和T5[3]模型等。多语言模型选取维基百科中使用最多的104种语言进行模型训练，我们也发现这些多语言预训练模型的训练数据中并没有包括藏语等少数民族语言，这严重阻碍了藏语各种下游任务的开展。

长期以来，由于国内少数民族语言语料库的获取困难，没有公开的数据集，相关研究相对匮乏。近日，哈工大与科大讯飞联合实验室发布了首个面向少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model，中国少数民族预训练语言模型)，该模型可促进藏语、蒙古语、维吾尔语、哈萨克语、朝鲜语、壮语、粤语等少数民族语言和方言的自然语言处理任务研究。CINO的出现极大地促进了中国少数民族语言信息处理的研究与发展。但是，对下游任务的影响还远远不及中文和英语领域。

为了进一步促进藏语自然语言处理的各种下游任务的发展，并获得BERT在英语和汉语中获得的结果，本文为藏语训练了一个名为TiBERT的单语语言模型。我们从西藏人民网和青海省人民政府网的网站上抓取藏语语料库作为TiBERT的训练数据，并使用Sentencepiece[4]模型对藏语子词进行分割。为了验证TiBERT的性能，本文在文本分类和问题生成两个下游任务中对TiBERT进行了评估。本文的主要贡献如下:(1)为了更好地表达藏语语义信息，减少词汇量不足的问题，本文采用Sentencepiece的unigram语言模型对藏语词汇进行分段，构建了能覆盖语料库99.95%词汇的词汇量。(2)为了进一步推动藏语自然语言处理的各种下游任务的发展，本文收集了大规模藏语数据集，训练了藏语单语预训练语言模型TiBERT。(3)为了评价TiBERT的性能，本文对文本分类和问题生成这两个下游任务进行了对比实验。实验结果表明，TiBERT算法是有效的。

2、相关工作

词嵌入可以将自然语言中的词转化为计算机可以识别的密集向量，相似的词会有相似的向量表示。词嵌入可以挖掘文本中词与句之间的特征，是自然语言处理任务的重要组成部分。以前的单词表示方法，如fastText[5]、word2vec[6]和GloVe[7]，只能从数据中学习一个简单而特定的向量嵌入。每个词的词嵌入都是静态的、非语境化的词嵌入，我们无法区分一个词的多重含义。为了解决这个问题，一些预训练的语言模型被训练来生成上下文词向量表示。ELMo[8]是第一个提出并成功应用上下文化词嵌入的方法，该方法使用双向LSTM网络来获得基于上下文的词嵌入。ELMo的本质是首先使用语言模型学习单词在大型语料库上的单词表示，并且单词表示是非语境化的，然后使用训练数据对预训练的ELMo模型进行微调，我们可以利用训练数据的上下文信息获得单词在当前上下文中的单词向量表示。另一个值得注意的模型是ULMFit[9]，它基于LSTM体系结构和语言建模任务。ULMFit包括三个阶段:通用域LM预训练、目标任务LM调优和目标任务分类器调优。此后，预训练和微调结构受到自然语言处理界的广泛关注。

通过处理单词的一词多义，模型在许多任务上的性能得到了极大的提高。特别是在Transformer架构[11]中的无监督预训练方法[8]、[10]引入后，各种预训练模型开始出现，如BERT[10]、ALBERT[12]、RoBERTa[13]、GPT[14]、GPT2[15]、T5[3]、XLNet[16]等。其中BERT是各种预训练语言模型中最受欢迎的，尤其具有影响力，它可以联合调整各层的左右上下文，在无标签文本中预训练深度双向表示，缓解单向性约束。它在自然语言处理的大多数下游任务中为英语建立了最先进的结果。然而，预训练的单语语言模型及其变体的成功在很大程度上仅限于英语和汉语。

对于低资源语言，可用的模型是多语言模型[1]-[3]，[17]，虽然多语言模型具有显著的跨语言泛化能力，但多项研究也表明可用的单语言BERT模型明显优于多语言BERT模型。因此，已经发布了一些基于bert的单语模型，例如西班牙语[18]，法语[19]，[20]，意大利语[21]，德语，芬兰语[22]，等等。他们都在下游任务中取得了良好的表现。但据我们所知，只有CINO[17]可以用于藏语下游任务研究。为了进一步探索藏语预训练语言模型，本文构建了藏语单语预训练语言模型TiBERT，并与CINO进行了比较。

3、TiBERT模型

A、预训练数据

1)数据收集:目前没有公开的大规模藏语语料库，本文从西藏人民网、青海省人民政府网等21个藏语网站获取藏语原始数据。这些数据包含了时事、经济、技术、社会、法律、体育、生活、自然、文化、地理、艺术、军事、教育、历史、人物等各个领域的知识。我们对原始数据进行清洗过滤，丢弃文章中的非文字信息，如图片、链接、特殊符号等，选择100字以上的文章。最后，我们收集3.56G的训练数据。之后，所有的文本都需要被分割成句子[23]。

2)词汇构建:为了构建藏语词汇，解决词汇量不足的问题，本文分别在词级、音节级和子词级对藏语数据进行分段，并统计分段后产生的词汇量。

（1）、词级分割

当我们在单词级别上分割数据时，词汇量的大小超过了100,000。词汇量过大，增加了机器的计算量，需要更长的时间和更多的计算资源来训练模型。

（2）、音节级分割

藏语是拼音语言。藏语的最小单位是音节，它包含一个或最多七个字符。音节之间用“”隔开。，所以我们用“。”，对藏文数据进行分割，对于不能分割的文字，如藏文的年份和时间，则按单个符号进行分割。我们选择数据中的高频词来构建词汇。当频率阈值设置为25时，词汇量的大小已经达到了35162，根据我们的统计，[UNK]的数量占到所有数据集的15%。如果我们使用音节级分割，我们还需要构建一个非常大的词汇量来减少OOV，这将增加训练时间。

（3）、子词级分割

词级和音节级分割会导致生成的词汇量过大，影响训练效率。因此，我们需要提取更粗粒度的词汇表。Sentencepiece将藏语原句作为“Unicode”字符序列，使用统计学习算法生成分词模型和指定大小的词汇，非常适合藏语的研究。在此基础上，我们可以在未标记的数据集上训练一个满足要求的分词模型。句子分段提供四种模式:bpe、unigram、char和word。bpe模型只能为一个句子生成一个唯一的子词序列，而unigram语言模型可以生成多个候选子词序列，这可以使模型对噪声和子词分词错误具有更强的鲁棒性。因此，本文使用unigram语言模型生成的词汇表可以覆盖数据集中99.95%的字符。最后，我们构建的藏语词汇量为3005个。我们使用Sentencepiece模型对藏文句子进行分段，结果如表I所示。

在这里插入图片描述

B、模型

我们使用与BERT相同的架构来训练TiBERT，包括一个多层双向Transformer，模型大小为12层，隐藏维数为768，注意头为12，参数为110M。原始BERT包含两个监督任务:(1)MLM(蒙面语言模型)，训练一个深度双向表示，对于给定序列，我们随机选择15%的令牌替换，其中80%替换为<掩码>，10%随机替换为其他令牌，10%保持不变。(2) NSP(下句预测)，对于给定的一对输入句子a和B，模型学习预测句子B是否是a之后的下一句。我们在TiBERT中使用了MLM和NSP目标。

本文使用Sentencepiece对语料库进行标记，模型的输入标记包含单词和子单词。研究表明，屏蔽整个单词而不是单个子单词可以提高模型[24]的性能。被蒙面语言模型蒙面的句子如表I所示，TiBERT模型的参数如表II所示。

4、TiBERT评估

我们使用藏文文本分类和问题生成两个下游任务来验证TiBERT的性能。

A、文本分类

本文采用复旦大学自然语言处理实验室发布的藏文新闻分类语料库[25]进行文本分类。数据来源于中国西藏网站，包括政治、经济、教育、旅游、环境、语言、文学、宗教、艺术、医学、习俗和仪器等12个不同的类别。该数据集共有9203条新闻。我们将数据集分为训练集、开发集和测试集。训练集占80%，开发集和测试集都占10%。

为了验证TiBERT模型对短文本和长文本分类的效果，我们分别对标题和文档进行了文本分类实验。评价方法计算如式(1)-(4)所示。

其中TP是真实类别和预测类别为正例的数量，FP是真实类别为负而预测类别为正的情况的数量，FN是真实类别为正而预测类别为负的情况的数量，TN是真实类别和预测类别为负例的数量。我们使用宏观平均来评估多分类任务，即计算每个类别的准确率、召回率和F1，然后计算平均值得到宏观精度、宏观召回率和宏观F1。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cWuYcQMD-1679924991639)(C:\Users\LBL\AppData\Roaming\Typora\typora-user-images\image-20230327213008240.png)]$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZPMi6id7-1679924991639)(C:\Users\LBL\AppData\Roaming\Typora\typora-user-images\image-20230327213037009.png)]$

1)新闻标题分类:我们进行了新闻标题分类实验，使用卷积神经网络(convolutional neural network, CNN)、TextCNN[26]、DPCNN[27]、TextRCNN[28]、Transformer[11]和TiBERT+CNN作为对比实验。音节是藏语的基本单位，藏语中的音节包含着非常丰富的语义信息。通过Qun et al.[25]的工作，我们可以知道CNN在藏文音节层面的分类效果要优于在单词层面的分类效果。因此，我们选择CNN在藏语音节级的分类结果作为基线模型。实验结果如表III和图1所示。我们可以看到TiBERT在title分类上的分类性能最好，达到了61.72%。在TiBERT+CNN模型上，性能会下降。推测CNN会破坏TiBERT的原始授时信息，降低其效果。

2)新闻文档分类:为了验证TiBERT对长文本的分类效果，本文对文档进行分类，并使用音节级CNN作为基线模型。近日，哈尔滨工业大学与科大讯飞联合实验室(HFL)发布了首个针对少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model)，并公布了CINO在TNCC数据集上的分类效果，本文将实验结果与TiBERT的分类结果进行对比，如表IV和图2所示。我们可以看到，TiBERT在长文本分类中也取得了最好的表现，达到70.94%。CINO的性能比TiBERT差，这与其他语言的研究结果相吻合。从Tab III和Tab IV可以看出，TiBERT在长文本上的分类结果比在短文本上的分类结果好，主要原因是长文本包含更多的信息，TiBERT模型可以学习更多的知识。

B、生成问题

问题生成(QG)是自然语言生成的任务，它以文本和目标答案为输入，根据答案自动生成问题。现有模型主要关注具有注意机制和复制机制的递归神经网络。最近，研究人员已经开始使用预先训练好的语言模型来指导问题的生成。本文借鉴Sun[29]的研究成果，采用带有注意和复制机制的序列对序列模型作为问题生成的基线模型，编码器使用BiLSTM和自注意机制对段落和答案进行编码，以获得上下文表示。解码器使用LSTM和复制机制来解码编码器的输出。

1)数据集:本文使用的是藏文机器阅读理解数据集藏族qa数据集[30]，该数据集包含1513篇文章和2万对问答。该数据集是第一个用于机器阅读理解的高质量藏文数据集。我们将数据集按照8:1:1的比例划分为训练集、开发集和测试集。为了更好地评估模型的性能，我们使用BLEU和ROUGE-L[31]作为指标。计算如式(5)-(9)所示。
在这里插入图片描述

其中BP是惩罚因子，Wn是n-gram的权重，Pn是n-gram的精度，lc是由模型生成的问题的长度，ls是黄金问题的长度。BLEU-2使用2-gram模型来匹配黄金答案。

ROUGE-L中的L指的是最长公共子序列。ROUGE-L的计算使用生成的问题Q和参考问题Y的最长公共子序列。

其中Rlcs表示召回率，Plcs表示准确率，LCS(Q, Y)表示模型生成问题和gold问题的公共子序列，为固定参数。

2)问题生成:本文将S2S+ATT+CP模型与TiBERT进行了比较，S2S+ATT+CP是一个seq2seq模型，带有注意和复制机制模型[29]。我们使用TiBERT作为对传统seq2seq架构的嵌入，并使用LSTM作为解码，基于TiBERT的问题生成模型的参数如Tab v所示。
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d9izwm4P-1679924991640)(C:\Users\LBL\AppData\Roaming\Typora\typora-user-images\image-20230327213931842.png)]$

从Tab VI中我们可以看到，TiBERT的各项指标都高于基线模型，TiBERT的BLEU-2达到28.60%，比S2S+ATT+CP的BLEU2高出8.46%。在ROUGE-L值上，TiBERT比S2S+ATT+CP高8.59%。由此可见，在问题生成任务中，TiBERT模型的性能优于S2S+ATT+CP。主要原因是TiBERT可以生成上下文向量表示，这对于藏族下游架构的大多数任务是有用的。
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pjfVumQ1-1679924991640)(C:\Users\LBL\AppData\Roaming\Typora\typora-user-images\image-20230327213954025.png)]$

最后，我们对生成的问题进行案例分析，我们将两种模型生成的问题与黄金问题进行比较，如表VII所示。我们强调生成题和金牌题之间的区别。对于第一个问题，两个模型生成与黄金问题相同的问题。对于第二个问题，TiBERT模型生成的问题与gold问题相同，但S2S+ATT+CP模型生成的问题中出现了“elevation”的重复，“meters”缺失。对于第三个问题，TiBERT模型生成的问题也与黄金问题相同，但在S2S+ATT+CP模型生成的问题中出现了“西南”的重复，黄金问题中的“公里”改为“厘米”。对于第四个问题，TiBERT模型生成的问题中出现了“many”的重复，而S2S+ATT+CP模型生成的问题是完全错误的。主要原因是问题的答案是一个数字，而模型很难学到有用的知识。第五个问题中，S2S+ATT+CP模型生成的问题中“红星”一词缺失，“公社”重复了三次，TiBERT模型生成的问题是一个陈述句，这是黄金题的答案，这说明TiBERT的理解能力还不够，在TiBERT的问题生成任务中还有很大的提升空间。

五、总结

本文训练了一个预先训练好的藏语语言模型TiBERT，并验证了TiBERT在文本分类和问题生成两个下游任务中的效果。在文本分类任务中，我们验证了TiBERT在长文本和短文本上的性能。与CNN和小语种预训练模型相比，TiBERT的分类效果最好。在问题生成任务上，我们将TiBERT与序列到序列模型进行了比较。实验结果表明，TiBERT算法取得了较好的效果，说明该模型是有效的。

[1] T. Pires, E. Schlinger, and D. Garrette. “How multilingual is multilingual BERT?” Association for Computational Linguistics, july 2019.

[2] A. Conneau, K. Khandelwal, N. Goyal, V. Chaudhary, G. Wenzek, and F. Guzm ́ an, et al. “Unsupervised cross-lingual representation learning at scale,” Association for Computational Linguistics, 2019.

[3] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, and M. Matena, et al. “Exploring the limits of transfer learning with a unified text-totext transformer,” Journal of Machine Learning Research, 2020. [4] T. Kudo, and J. Richardson. “Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing,” EMNLP, 2018.

[5] T. Mikolov, E. Grave, P. Bojanowski, C. Puhrsch, and A. Joulin. “Advances in pre-training distributed word representations,” European Language Resources Association (ELRA), 2018.

[6] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean. “Distributed representations of words and phrases and their compositionality,” Advances in neural information processing systems, 2013.

[7] J. Pennington, R. Socher, and C. D. Manning. “Glove: Global vectors for word representation,” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp.1532–1543.

[8] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, and K. Lee, et al. “Deep Contextualized Word Representations,” Association for Computational Linguistics, 2018, pp.2227–2237.

[9] J. Howard, and S. Ruder. “Universal language model fine-tuning for text classification,” Association for Computational Linguistics, july 2018, pp.328–329.

[10] J. Devlin, M. W. Chang, K. Lee, and K. Toutanova. “Bert: Pre-training of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018.

[11] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, and A. N. Gomez, et al, “Attention is all you need,” Advances in neural information processing systems, 2017.

[12] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut. “Albert: A lite bert for self-supervised learning of language representations,” arXiv preprint arXiv:1909.11942, 2019.

[13] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, and D. Chen, et al. “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.

[14] A. Radford, K. Narasimhan, T. Salimans, and T. Sutskever. “Improving language understanding by generative pre-training,” 2018.

[15] A. Radford, J. Wu, R. Child, D. Luan, and D. Amodei, I. Sutskever. “Language models are unsupervised multitask learners,” OpenAI blog, 2019.

[16] Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhutdinov, and Q. V. Le. “Xlnet: Generalized autoregressive pretraining for language understanding,” Advances in neural information processing systems, 2019.

[17] Z. Yang, Z. Xu, Y. Cui, B. Wang, M. Lin, and D. Wu, et al. “CINO: A Chinese Minority Pre-trained Language Model,” arXiv preprint arXiv:2202.13558, 2022

[18] J. Canete, G. Chaperon, R. Fuentes, J. H. Ho, H. Kang, and J. P ́ erez. “Spanish pre-trained bert model and evaluation data,” Pml4dc at iclr, 2020.

[19] H. Le, L. Vial, J. Frej, V. Segonne, M. Coavoux, and B. Lecouteux, et al. “Flaubert: Unsupervised language model pre-training for french,” European Language Resources Association, 2020, pp.2479–2490.

[20] L. Martin, B. Muller, P. J. O. Su ́ arez, Y. Dupont, L. Romary, and ́ E. V. de La Clergerie, et al. “CamemBERT: a tasty French language model,” Association for Computational Linguistics, 2020, pp.7203–7219.

[21] M. Polignano, P. Basile, M. De Gemmis, G. Semeraro, and V. Basile. “Alberto: Italian BERT language understanding model for NLP challenging tasks based on tweets,” In 6th Italian Conference on Computational Linguistics, CLiC-it 2019 (Vol. 2481, pp. 1-6). CEUR, 2019.

[22] A. Virtanen, J. Kanerva, R. Ilo, J. Luoma, J. Luotolahti, and T. Salakoski, et al. “Multilingual is not enough: BERT for Finnish,” arXiv preprint arXiv:1912.07076, 2019.

[23] J. Kanerva, F. Ginter, N. Miekka, A. Leino, and T. Salakoski. “Turku neural parser pipeline: An end-to-end system for the CoNLL 2018 shared task,” In Proceedings of the CoNLL 2018 Shared Task: Multilingual parsing from raw text to universal dependencies, 2018, pp.133142.

[24] M. Joshi, D. Chen, Y. Liu, D. S. Weld, L. Zettlemoyer, and O. Levy. “Spanbert: Improving pre-training by representing and predicting spans,” Transactions of the Association for Computational Linguistics, 2020, pp.64–77.

[25] N. Qun, X. Li, X. Qiu, and X. Huang. “End-to-end neural text classification for tibetan,” In Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, 2017, pp.472–480.

[26] Y. Chen. “Convolutional neural network for sentence classification,” University of Waterloo, 2015.

[27] R. Johnson, and T. Zhang. “Deep pyramid convolutional neural networks for text categorization,” Association for Computational Linguistics, 2017, pp.562–570.

[28] S. Lai, L. Xu, K. Liu, and J. Zhao. “Recurrent convolutional neural networks for text classification,” In Twenty-ninth AAAI conference on artificial intelligence, 2015.

[29] Y. Sun, C. F. Chen, A. D. Chen, and X. B. Zhao. “Tibetan Question Generation Based on Sequence to Sequence Model,” CMCCOMPUTERS MATERIALS & CONTINUA, 2021, pp.3203–3213.

[30] Y. Sun, S. S. Liu, C. F. Chen, Z. C. Dan, and X. B. Zhao. “Construction of High-quality Tibetan Dataset for Machine Reading Comprehension,” Proceedings of the 20th Chinese National Conference on Computational Linguistics, 2021, pp.208–218.

of High-quality Tibetan Dataset for Machine Reading Comprehension,” Proceedings of the 20th Chinese National Conference on Computational Linguistics, 2021, pp.208–218.