唐诗生成器

使用唐诗语料库,经过去噪预处理、分词、生成搭配、生成主题等过程,生成唐诗。

csdn下载地址:http://download.csdn.net/detail/lijiancheng0614/9840952
github上repository地址:https://github.com/lijiancheng0614/poem_generator

环境

  • Python 2.7

  • Flask

  • jieba

运行方法

如果是第一次运行,则需要安装相关的库及生成初始数据:

pip install flask
pip install jieba
python preprocess.py
python get_collocations.py
python get_topic.py
python get_start_words.py

以后只需要输入以下代码即可运行网站:

python index.py

实现

预处理

观察到给定的唐诗语料库存在以下噪声:

  • 诗句中出现类似<img height=32 width=32 border=0 src=/bzk/QLXQ.bmp >的HTML标签。

  • 出现空格、“.”等字符。

  • 诗句中出现注释,用“(”、“)”标出来。

  • 诗句不完整,出现方框字符。

对于前三种情况的噪声,直接去掉即可。对于最后一种噪声,直接把这行诗句忽略考虑。(此外,对于第三种噪声,“(”、“)”不在同一行时未处理。)

由于暂时只需要用到唐诗标题和诗句,故只提取这两部分内容。

相关代码实现在preprocess.py

输入:

  • .\data\唐诗语料库.txt

输出:

  • .\data\poem.txt

分词

对于中文分词,这里采用在工业界上较广泛应用的“结巴”中文分词组件1。该分词组件主要采用以下算法:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

由于唐诗中的每一个字基本都是有用的,故停用词(Stop Words)主要为标点符号,这里直接使用默认的停用词。

生成搭配

搭配包括横向搭配和纵向搭配。横向搭配指每句诗中每个词与下一个词的搭配关系,纵向搭配指每两句诗中,第一句诗中的词与下一句诗中对应相等长度的词的搭配关系。

分词之后把唐诗(不含标题)按句子切割,对句子总数为偶数的唐诗,遍历每两句诗,第一句诗中的词与第二句诗中对应相等长度的词形成一个纵向搭配。对每一句诗,每两个词形成一个横向搭配。

易知,使用似然比、频率、t检验等搭配发现方法都能得到较好结果,这里为了方便,直接使用频率来发现搭配。

相关代码实现在get_collocations.py

输入:

  • .\data\poem.txt

输出:

  • 横向搭配.\data\collocations_h
  • 纵向搭配.\data\collocations_v

生成主题

对每首诗,提取TF-IDF2特征并构建矩阵3,然后使用非负矩阵分解(Non-negative matrix factorization, NMF)45提取唐诗主题类别。考虑到唐诗分类数量有限,这里只生成10个类,每个类用频率最高的20个词来表示。

相关代码实现在get_topic.py

输入:

  • .\data\poem.txt

输出:

  • 主题.\data\topics.txt
  • .\data\words
  • 每个主题-词对应的得分.\data\topic_words

生成起始词

对每首诗,分词后取第一句诗的第一个词作为起始词。统计所有起始词,并输出出现超过两次的词。

相关代码实现在get_start_words.py

输入:

  • .\data\poem.txt

输出:

  • 起始词.\data\start_words.txt

生成唐诗

由于前期并没有平仄处理,也没有对唐诗语料库作过多的要求,因此,生成的唐诗可能对仗不太工整。

输入的参数除了上述生成的部分文件(如搭配、主题等)外,还需要指定诗句数量、诗句长度、主题和起始词(若不指定则随机产生)。

对于给定诗句长度 l , 起始词start_word和主题 topic_id ,设 a[i] 为第 i 个词的id,我们可以把产生第一句诗抽象成一个子问题:

maxs.t.i=2ncollocations_h_score[a[i1]][a[i]]+λi=1ntopic_word[topic_id][a[i]]i=1nlen(word[a[i]])=la[1]=start_word

其中 collocations_h_score[a[i1]][a[i]] 表示第 i1 个词与第 i 个词的横向搭配分数,λ为平衡参数。若以上问题的最优解为 a[i] ,那么所生成的较为合理的第一句诗即 word[1],word[2],,word[n]

显然,对于该问题,可以把目标函数中的乘积部分用 log 来使其变成求和。于是该问题可以用动态规划来求解:

f[i][j] 表示长度为 i ,最后一个单词id为j的最大目标函数值,则

f[i][j]=max{f[ilen(word[j])][k]+log_collocations_h_score[k][j]}+λtopic_word[j]

其中 (k,j) 为一个横向搭配。

初始时 f[len(start_word_id)][start_word_id]=λtopic_word[start_word_id]

最后最优值为 f[l][j],j ,路径可通过与f f 同大小的矩阵prepre来记录前一个单词的id。

而产生下一句诗,则需要考虑纵向搭配。同理我们也可以把产生下一句诗抽象成一个子问题:

\begin{array}{cl} \max & \prod_{i = 2}^n collocations\_h\_score[a[i - 1]][a[i]] \\ & + \lambda_1 \prod_{i = 1}^n collocations\_v\_score[pre\_a[i]][a[i]] \\ & + \lambda_2 \sum_{i = 1}^n topic\_word[topic\_id][a[i]] \\ \text{s.t.} & len(word[a[i]]) = len(word[pre\_a[i]]), i = 1, \cdots, n \end{array}

maxs.t.i=2ncollocations_h_score[a[i1]][a[i]]+λ1i=1ncollocations_v_score[pre_a[i]][a[i]]+λ2i=1ntopic_word[topic_id][a[i]]len(word[a[i]])=len(word[pre_a[i]]),i=1,,n

其中 pre_a[i] 表示上一句诗的第 i 个词的id,collocations_v_score[pre_a[i]][a[i]]表示上一句诗第 i 个词与这一句诗第i个词的纵向搭配分数, λ1,λ2 均为平衡参数。同理也用动态规划来求解:

f[i][j] 表示第 i 个词,最后一个单词id为j的最大目标函数值,则

f[i][j]=max{f[i1][k]+log_collocations_h_score[k][j]+λ1log_collocations_v_score[pre_a[i]][j]}+λ2topic_word[j]

其中 (k,j) 为一个横向搭配, (pre_a[i],j) 为一个纵向搭配。

初始时 f[0][j]=max{λ1log_collocations_v_score[pre_a[i]][j]}+λ2topic_word[j]

求最优值与最优解方法同上。

相关代码实现在generate_poem.py

输入:

  • .\data\collocations_v
  • .\data\collocations_h
  • .\data\words.txt
  • .\data\topic_words
  • .\data\start_words.txt

输出:

  • 屏幕中输出随机生成的唐诗。

实现网站

为了更好的用户体验,可以把随机和成的唐诗写成一个网站“古诗生成器”。若是用户没有输入,则随机生成唐诗;若是用户输入第一句诗或更多句诗,则生成剩下的诗。

具体的实现使用Flask框架,由于只是demo,只使用了bootstrap作为样式,并未过多设计,具体效果如下图所示。

随机生成唐诗
给定第一句生成唐诗

总结与展望

总的来说,这个系统生成的唐诗还只是基本符合搭配和主题尽可能相关的要求,平仄、主旨等唐诗的属性还有待改进。今后可以考虑生成更精确、更有意义的唐诗,如文献6提供了一种解决方案。期待以后能做出更好的效果!

参考


  1. “结巴”中文分词. https://github.com/fxsjy/jieba
  2. TF-IDF. 维基百科. 最后修订于2015年9月27日. https://zh.wikipedia.org/wiki/TF-IDF
  3. sklearn.feature_extraction.text.TfidfTransformer. scikit-learn developers. http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html
  4. Non-negative matrix factorization. Wikipedia. 最后修订于2015年12月1日. https://en.wikipedia.org/wiki/Non-negative_matrix_factorization
  5. sklearn.decomposition.NMF. scikit-learn developers. http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html
  6. He J, Zhou M, Jiang L. Generating chinese classical poems with statistical machine translation models[C]//Twenty-Sixth AAAI Conference on Artificial Intelligence. 2012.
要使用 PyTorch 实现唐诗生成,您可以使用循环神经网络(RNN)来训练模型。这里给出一个基本的框架,您可以根据需要进行修改。 首先,您需要准备好唐诗数据集,可以从网上下载或自己收集。将数据集转换为训练模型所需的格式,例如将每首唐诗转换为一行文本。 接下来,您需要定义 RNN 模型。这里我们使用 LSTM(长短时记忆网络)来构建模型,因为它能够更好地处理文本序列数据。以下是一个简单的 LSTM 模型代码: ``` import torch.nn as nn class PoetryModel(nn.Module): def __init__(self, input_size, hidden_size, num_layers, output_size): super(PoetryModel, self).__init__() self.hidden_size = hidden_size self.num_layers = num_layers self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x, hidden=None): out, hidden = self.lstm(x, hidden) out = self.fc(out[:, -1, :]) return out, hidden ``` 该模型接受输入大小为`input_size`的词嵌入(或者是one-hot编码),有`num_layers`层LSTM,每层LSTM的隐藏状态大小为`hidden_size`,输出大小为`output_size`。在`forward`方法中,模型通过LSTM处理输入序列,并将最后一个时间步的输出通过全连接层进行映射,并返回输出和最终的隐藏状态。 接下来,您需要定义训练和生成唐诗的函数。以下是一个基本的模板: ``` def train(model, dataloader, optimizer, criterion, device): model.train() loss_total = 0 for batch in dataloader: inputs, targets = batch inputs, targets = inputs.to(device), targets.to(device) optimizer.zero_grad() outputs, _ = model(inputs) loss = criterion(outputs, targets.view(-1)) loss.backward() optimizer.step() loss_total += loss.item() return loss_total / len(dataloader) def generate(model, start_words, ix2word, word2ix, max_gen_len, device): model.eval() result = list(start_words) input = torch.Tensor([word2ix[start_words]]).view(1, 1).long().to(device) hidden = None for i in range(max_gen_len): output, hidden = model(input, hidden) if i < len(start_words): w = result[i] input = input.data.new([word2ix[w]]).view(1, 1) else: top_index = output.data[0].topk(1)[1][0].item() w = ix2word[top_index] result.append(w) input = input.data.new([top_index]).view(1, 1) if w == '<EOP>': del result[-1] break return result ``` 在训练函数中,您需要传入模型、数据加载器、优化器、损失函数和设备,该函数将训练模型并返回平均损失。在生成函数中,您需要传入唐诗模型、起始词、词典、最大生成长度和设备,该函数将使用模型生成唐诗。 最后,您需要设置超参数并开始训练模型。您可以根据需要修改模型的超参数,例如学习率、迭代次数和模型结构等。 ``` import torch.optim as optim from torch.utils.data import DataLoader from dataset import PoetryDataset # 设置超参数 input_size = 100 # 词嵌入维度 hidden_size = 128 # LSTM 隐藏层维度 num_layers = 2 # LSTM 层数 output_size = len(word2ix) # 输出维度 batch_size = 64 # 批次大小 learning_rate = 0.01 # 学习率 num_epochs = 100 # 迭代次数 max_gen_len = 100 # 最大生成长度 # 加载数据 dataset = PoetryDataset(data_path, word2ix, max_len=100) dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True) # 初始化模型、损失函数和优化器 model = PoetryModel(input_size, hidden_size, num_layers, output_size).to(device) criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=learning_rate) # 训练模型 for epoch in range(num_epochs): loss = train(model, dataloader, optimizer, criterion, device) print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, num_epochs, loss)) # 生成唐诗 with torch.no_grad(): start_words = '静夜思' gen_poetry = generate(model, start_words, ix2word, word2ix, max_gen_len, device) print('Generated Poetry: {}'.format(''.join(gen_poetry))) ``` 注意,这里的`dataset`和`PoetryDataset`类是自定义的数据集类,用于将数据集转换为模型输入格式。您可以根据需要修改该类以适应您的数据集。 希望这可以帮助您开始使用 PyTorch 实现唐诗生成。
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值