原论文:《GPT-based Generation for Classical Chinese Poetry》
arXiv:1907.00151v2 [cs.CL] 2 Jul 2019
该论文使用GPT模型去生成中国传统诗词。
模型:基于BERT源码实现的GPT
- 预训练:8 Nvidia V100(16GB) GPUs for 4 epochs,90 hours
- 微调:使用自动回归语言模型
训练数据:
- 预训练:中国新闻语料
- 微调训练:作者等人收集的开放可用的传统中国诗词
- 格式:[form,identifier 1,theme,identifier 2,body]
- 例子:
五言绝句(格式)静夜思(主题)床前明月光,疑...月,低头思故乡。
- 例子:
- 对联的格式:上联为 theme,下联为 body
- 例子:
对联(格式)一句相思吟岁月(主题)几分寂寞醉诗词
- 例子:
- 格式:[form,identifier 1,theme,identifier 2,body]
Training Phases | Corpus type | Corpus size |
---|---|---|
Pre-training | Chinese news | 235M sentences |
Fine-tuning | Jueju and Lvshi、Cipai、Couplet | 250000 Jueju and Lvshi,20000 Cis,700000 pairs of couplets |
诗句生成:
输入form与theme,虽然不限定生成文本格式上的正确性,但模型仍旧能自动判定诗词的“,”与“。”的位置。当输出“EOS”时,结束生成。
文中使用了 Truncated top-k sampling,结果显示,生成的文本具有正确的格式。
训练藏头诗模型
方法:将藏头的内容替换原来诗句的标题
例子:五言绝句(格式)床疑举低(藏头诗)床前明月光,疑...月,低头思故乡。
论文里给出的例子: