GPT-2中文文本训练及生成

前排感谢这个开源项目:https://github.com/Morizeyao/GPT2-Chinese
原文链接:https://moluuser.com/archives/74/

记录下运行以上项目的流程。
运行环境

导入语料
由于使用单一文本进行训练,只需要把数据集放置在./data/train.json即可。

如果需要合并txt文本,使用批处理type *.txt>>all.txt即可。

模型训练
python train_single.py --raw

文本生成
python ./generate.py --length=400 --nsamples=4 --prefix=xxx --fast_pattern --save_samples --save_samples_path=/mnt/xx

参数说明

-length:参数为生成文本的长度。
--prefix:生成文章的开头。
--fast_pattern:如果生成的length参数比较小,速度基本无差别,默认不采用fast_pattern方式。
--save_samples:默认将输出样本直接打印到控制台,传递此参数,将保存在根目录下的samples.txt。
--save_samples_path:可自行指定保存的目录,默认可递归创建多级目录,不可以传递文件名称,文件名称默认为samples.txt。

结果
这里model使用的是hughqiu训练生成模型,感谢分享。
在这里插入图片描述

Others
可能需要修改的地方
在train.py中:

    #lines = json.load(f)
    lines = f.readlines()

    #full_tokenizer.max_len = 999999

其他类似开源项目
https://github.com/hughqiu/GPT2-Chinese
https://github.com/jianyq/Tong-Music
https://github.com/GaoPeng97/transformer-xl-chinese
https://github.com/yangjianxin1/GPT2-chitchat

  • 9
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值