GPT-2中文文本训练及生成

是小李呀~

已于 2023-04-17 10:05:45 修改

阅读量8.9k

点赞数 9

分类专栏：自然语言处理文章标签： gpt 深度学习人工智能

于 2021-05-03 19:38:32 首次发布

原文链接：https://moluuser.com/archives/74/

版权

自然语言处理专栏收录该内容

24 篇文章 4 订阅

订阅专栏

前排感谢这个开源项目：https://github.com/Morizeyao/GPT2-Chinese
原文链接：https://moluuser.com/archives/74/

记录下运行以上项目的流程。
运行环境

导入语料
由于使用单一文本进行训练，只需要把数据集放置在./data/train.json即可。

如果需要合并txt文本，使用批处理type *.txt>>all.txt即可。

模型训练
python train_single.py --raw

文本生成
python ./generate.py --length=400 --nsamples=4 --prefix=xxx --fast_pattern --save_samples --save_samples_path=/mnt/xx

参数说明

-length：参数为生成文本的长度。
--prefix：生成文章的开头。
--fast_pattern：如果生成的length参数比较小，速度基本无差别，默认不采用fast_pattern方式。
--save_samples：默认将输出样本直接打印到控制台，传递此参数，将保存在根目录下的samples.txt。
--save_samples_path：可自行指定保存的目录，默认可递归创建多级目录，不可以传递文件名称，文件名称默认为samples.txt。

结果
这里model使用的是hughqiu训练生成模型，感谢分享。
在这里插入图片描述

Others
可能需要修改的地方
在train.py中：

    #lines = json.load(f)
    lines = f.readlines()

    #full_tokenizer.max_len = 999999

其他类似开源项目
https://github.com/hughqiu/GPT2-Chinese
https://github.com/jianyq/Tong-Music
https://github.com/GaoPeng97/transformer-xl-chinese
https://github.com/yangjianxin1/GPT2-chitchat

是小李呀~

关注

9
点赞
踩
64

收藏

觉得还不错? 一键收藏
6
评论
GPT-2中文文本训练及生成

前排感谢这个开源项目：https://github.com/Morizeyao/GPT2-Chinese原文链接：https://moluuser.com/archives/74/记录下运行以上项目的流程。运行环境导入语料由于使用单一文本进行训练，只需要把数据集放置在./data/train.json即可。如果需要合并txt文本，使用批处理type *.txt>>all.txt即可。模型训练python train_single.py --raw文本生成python ./ge
复制链接

扫一扫