paper:Aaron Gokaslan, Vanya Cohen, Pavlick Ellie, and Stefanie Tellex. Openwebtext corpus, 2019.
用于GPT2训练的文本数据,GPT2主要是生成文本的,只有足够多的数据训练的模型才能学会说话,生成的才有可能是通顺的。GPT2文本生成可以采用huggingface中代码直接进行训练,但其中需要再填个坑哈。如下:
python run_clm.py \
--model_name_or_path gpt2 \
--dataset_name wikitext \
--dataset_config_name wikitext-2-raw-v1 \
--per_device_train_batch_size 8 \
--per_device_eval_batch_size 8 \
--do_train \
--do_