1. 先决条件
- 从源码安装Fairseq
- 安装transformers
脚本在https://github.com/jazzisfuture/FineTuningXLM-R
平行语料 https://www.aliyundrive.com/s/nBX6YRA
pretrained模型 xlmr-base xlmr-large
2. 流程
简化流程
- script/tokenize_para.py
- script/split_file.sh
- script/gen.sh
- 修改config文件内的data和pretraing模型位置
- script/finetuning.sh
2.1 数据集处理
使用huggingface transformers的tokenizer进行数据处理
XLM-R TLM 训练时模型的输入形式为
为了对模型进行继续预训练我们要将平行语料处理为
<s> a</s></s>b</s>
的形式
Transformers的tokenizer提供了这将两个句子处理为TLM输入的能力
tokenizer.tokenize(the_data,add_special_tokens=True)
处理语料的core code
def xlm_tok(data,fout):
fout = open(fout, 'w', encoding='utf-8')
tok = AutoTokenizer.from_pretrained(