论文翻译-通过无监督方法产生不同风格的唐诗

最新推荐文章于 2019-07-05 16:50:50 发布

孙宝龙

最新推荐文章于 2019-07-05 16:50:50 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习与人工智能自然语言处理文章标签：诗词生成 seq2seq 多风格

本文链接：https://blog.csdn.net/amao1998/article/details/84559795

版权

1、摘要

原论文 Stylistic Chinese Poetry Generation via Unsupervised Style Disentanglement

链接： http://nlp.csai.tsinghua.edu.cn/~yangcheng/publications/emnlp2018.pdf

中国人在写诗歌时主要关注诗歌的意境，在不同的意境下，人们可以创作出不同风格的诗歌。这是人类创作诗歌的重要特征。以往关于中国诗歌自动生成的研究，大多集中在提高诗词每一行之间的连贯性上。也有一些人工智能的研究工作专注在诗词的风格转换上。但由于要对原始语料做非常的多的标注工作，使得这样的研究并没有什么实质性的进展。本文将着重讨论以无监督的方式来实现不同风格的诗词的生成。本文提出了一种新的模型，该模型将信息论的互信息技术引入到建模当中，从而避免了非常繁琐的人工标注工作。实验表明，该模型在保证诗歌一致性与连贯性的情况下，产生不同风格的诗词。

2、介绍

古诗是中国文学中非常重要的一个组成部分。其中最为流行的就是五言绝句与七言绝句，这种诗体对文字的数量，韵律，以及平仄都有非常严格的要求。在诗歌发展的近千年的时间中，出现了各种风格的诗词如：田园风格，叙事风格，浪漫主义风格等。而且每一种风格都有著名的代表诗人。在诗歌的创作过程中，即便我们约定了诗词的关键词以及诗词的第一句，不同的诗人也能写出不同风格诗词。如下图所示，我们决定关键词是 “月”，同样会有各种各样风格的诗词被创作出来。
不同风格唐诗生成

诗歌的自动生成是人工智能在写作领域最早的一次尝试。同样，中国古诗的自动生成也被越来越多的学者所关注。最早的诗歌生成是基于规则以及模板形式的，而目前的诗歌生成是基于神经网络与seq2seq模型的。而这种生成模式更多关注诗歌生成的一致性与连续性。与之前的研究不同。本文将着重研究在相同输入下，如何产生不同风格的诗歌。这样的生成模型在诗歌生成方面更具有表现力，更接近人类创作的效果。

但是，在成千上万的诗句中，并没有明确的关于风格的标注。在没有人工标注数据训练的情况下，传统的监督模型就没有办法得到良好的效果。在所有的研究当中，本文是第一次提出以无监督的模型来生成不同风格的诗词。

在本文中，我们提出了一种新的模型，该模型可以自动识别诗词的分类。并在给定关键词的情况下，生成不同风格的诗句。我们采用具有注意力机制的sequence-to-sequence模型作为模型的主体结构，通过模型最大化两个随机变量的互信息。以保证确定的输入风格与输出风格的一致性。实验表明，该模型在保证诗歌一致性与连贯性的情况下，产生不同风格的诗词。

本文的价值可以总结为以下三点：

本论文是最先以无监督的方式来生成不同风格的诗歌在这种无监督的模型中
我们创新性的将户信息引入到模型当中并作为一个关键变量
实验表明，该模型在保证诗歌一致性与连贯性的情况下，产生不同风格的诗词

3、方法论

为了达到模型可以生成不同风格的唐诗，我们将使用下面两个变量作为模型的输入： $s_{input}$ 与表示风格的id: $k$ ，我们可以根据不同的风格id得到不同的输出，我们将输出的诗句记为 $s^k_{output}$ 。

在本节当中，首先介绍具有注意力机制的seq2seq模型的一些基础知识。然后介绍通过在解码器中加入互信息来区分不同风格的具体方法。我们将具体介绍每一个技术实现的细节。

3.1 互信息

受之前使用半监督方法生成图像的研究工作的启发。我们将信息论中户信息的概念引入到解码器中，并实现不同风格的诗句的生成。给定两个随机变量 $X$ 、 $Y$ ，可以将这两个变量的互信息记为 $I (X, Y)$ ，互信息表示在一个随机变量中包含另一个随机变量的信息的数量。也可以理解为两个变量的相关性。从概率学上，互信息可以表示为联合概率 $P (X, Y)$ 与边缘概率 $P (X) P (Y)$ 的相似性或者相关性。用熵的概念来理解，我们可以采用下面公式来表示互信息：
$I(X,Y)=\int_Y\int_Xp(X,Y)log\frac{p(X,Y)}{p(X)p(Y)}dXdY.$

3.2 注意力seq2seq模型

我们使用seq2seq模型(Sutskever et al., 2014)作为整体框架，该模型最早应用在机器翻译领域，而且应用十分广泛。在该模型中，假设我们的输入的语句为 $X=(x_1,x_2,...,x_T)$ ，输出语句为 $Y=(y_1,y_2,...,y_T)$ 。期中 $x_i$ ， $y_i$ 是句子中的分词，而 $T$ 表示句子中的单词总数，并且将语料中所有单词形成的词典标记成 $V$ 。

同时，我们使用双向的lstm作为基本的编码器单元，用来将单词映射成隐语义空间中的词向量。lstm单元的中隐藏状态可以使用如下方式进行计算：
$\overrightarrow{h_i}=LSTM_{forward}(\overrightarrow{h_{i-1}},e(x_i)),(2)$
$\overleftarrow{h_i}=LSTM_{forward}(\overleftarrow{h_{i-1}},e(x_{T-i+1})),(3)$