OpenWebtext数据集

最新推荐文章于 2025-04-23 07:25:00 发布

小李飞刀李寻欢

最新推荐文章于 2025-04-23 07:25:00 发布

阅读量1.2k

点赞数 2

分类专栏： NLP与推荐算法文章标签： CLM 因果模型 openWebtext 文本生成 GPT GPT2 GPT3

本文链接：https://blog.csdn.net/SPESEG/article/details/131932405

版权

NLP与推荐算法专栏收录该内容

152 篇文章 ¥399.90 ¥499.90

订阅专栏

超级会员免费看

OpenWebtext是GPT2训练用的文本数据集，旨在通过大量数据训练模型以实现高质量文本生成。GPT2的生成过程借助huggingface库，其模型基于纯解码器结构，包含12层，不同于BERT的encoder-decoder结构。CLM，即Casual Language Model，是一种预测下一个词的任务，与GPT的next token prediction相似。本文简要介绍了OpenWebtext数据集及其在GPT系列模型中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

paper：Aaron Gokaslan, Vanya Cohen, Pavlick Ellie, and Stefanie Tellex. Openwebtext corpus, 2019.

用于GPT2训练的文本数据，GPT2主要是生成文本的，只有足够多的数据训练的模型才能学会说话，生成的才有可能是通顺的。GPT2文本生成可以采用huggingface中代码直接进行训练，但其中需要再填个坑哈。如下：

python run_clm.py \
    --model_name_or_path gpt2 \
    --dataset_name wikitext \
    --dataset_config_name wikitext-2-raw-v1 \
    --per_device_train_batch_size 8 \
    --per_device_eval_batch_size 8 \
    --do_train \
    --do_

了解本专栏