论文翻译-通过无监督方法产生不同风格的唐诗

1、摘要

原论文 Stylistic Chinese Poetry Generation via Unsupervised Style Disentanglement

链接: http://nlp.csai.tsinghua.edu.cn/~yangcheng/publications/emnlp2018.pdf

中国人在写诗歌时主要关注诗歌的意境,在不同的意境下,人们可以创作出不同风格的诗歌。这是人类创作诗歌的重要特征。以往关于中国诗歌自动生成的研究,大多集中在提高诗词每一行之间的连贯性上。也有一些人工智能的研究工作专注在诗词的风格转换上。但由于要对原始语料做非常的多的标注工作,使得这样的研究并没有什么实质性的进展。本文将着重讨论以无监督的方式来实现不同风格的诗词的生成。本文提出了一种新的模型,该模型将信息论的互信息技术引入到建模当中,从而避免了非常繁琐的人工标注工作。实验表明,该模型在保证诗歌一致性与连贯性的情况下,产生不同风格的诗词。

2、介绍

古诗是中国文学中非常重要的一个组成部分。其中最为流行的就是五言绝句与七言绝句,这种诗体对文字的数量,韵律,以及平仄都有非常严格的要求。在诗歌发展的近千年的时间中,出现了各种风格的诗词如:田园风格,叙事风格,浪漫主义风格等。而且每一种风格都有著名的代表诗人。在诗歌的创作过程中,即便我们约定了诗词的关键词以及诗词的第一句,不同的诗人也能写出不同风格诗词。如下图所示,我们决定关键词是 “月”,同样会有各种各样风格的诗词被创作出来。
不同风格唐诗生成

诗歌的自动生成是人工智能在写作领域最早的一次尝试。同样,中国古诗的自动生成也被越来越多的学者所关注。最早的诗歌生成是基于规则以及模板形式的,而目前的诗歌生成是基于神经网络与seq2seq模型的。而这种生成模式更多关注诗歌生成的一致性与连续性。与之前的研究不同。本文将着重研究在相同输入下,如何产生不同风格的诗歌。这样的生成模型在诗歌生成方面更具有表现力,更接近人类创作的效果。

但是,在成千上万的诗句中,并没有明确的关于风格的标注。在没有人工标注数据训练的情况下,传统的监督模型就没有办法得到良好的效果。在所有的研究当中,本文是第一次提出以无监督的模型来生成不同风格的诗词。

在本文中,我们提出了一种新的模型,该模型可以自动识别诗词的分类。并在给定关键词的情况下,生成不同风格的诗句。我们采用具有注意力机制的sequence-to-sequence模型作为模型的主体结构,通过模型最大化两个随机变量的互信息。以保证确定的输入风格与输出风格的一致性。实验表明,该模型在保证诗歌一致性与连贯性的情况下,产生不同风格的诗词。

本文的价值可以总结为以下三点:

  • 本论文是最先以无监督的方式来生成不同风格的诗歌 在这种无监督的模型中
  • 我们创新性的将户信息引入到模型当中并作为一个关键变量
  • 实验表明,该模型在保证诗歌一致性与连贯性的情况下,产生不同风格的诗词

3、方法论

为了达到模型可以生成不同风格的唐诗,我们将使用下面两个变量作为模型的输入: s i n p u t s_{input} sinput与表示风格的id: k k k,我们可以根据不同的风格id得到不同的输出,我们将输出的诗句记为 s o u t p u t k s^k_{output} soutputk

在本节当中,首先介绍具有注意力机制的seq2seq模型的一些基础知识。然后介绍通过在解码器中加入互信息来区分不同风格的具体方法。我们将具体介绍每一个技术实现的细节。

3.1 互信息

受之前使用半监督方法生成图像的研究工作的启发。我们将信息论中户信息的概念引入到解码器中,并实现不同风格的诗句的生成。给定两个随机变量 X X X Y Y Y,可以将这两个变量的互信息记为 I ( X , Y ) I(X,Y) I(X,Y),互信息表示在一个随机变量中包含另一个随机变量的信息的数量。也可以理解为两个变量的相关性。从概率学上,互信息可以表示为联合概率 P ( X , Y ) P(X,Y) P(X,Y)与边缘概率 P ( X ) P ( Y ) P(X)P(Y) P(X)P(Y)的相似性或者相关性。用熵的概念来理解,我们可以采用下面公式来表示互信息:
I ( X , Y ) = ∫ Y ∫ X p ( X , Y ) l o g p ( X , Y ) p ( X ) p ( Y ) d X d Y . I(X,Y)=\int_Y\int_Xp(X,Y)log\frac{p(X,Y)}{p(X)p(Y)}dXdY. I(X,Y)=YXp(X,Y)logp(X)p(Y)p(X,Y)dXdY.

3.2 注意力seq2seq模型

我们使用seq2seq模型(Sutskever et al., 2014)作为整体框架,该模型最早应用在机器翻译领域,而且应用十分广泛。在该模型中,假设我们的输入的语句为 X = ( x 1 , x 2 , . . . , x T ) X=(x_1,x_2,...,x_T) X=(x1,x2,...,xT),输出语句为 Y = ( y 1 , y 2 , . . . , y T ) Y=(y_1,y_2,...,y_T) Y=(y1,y2,...,yT)。期中 x i x_i xi y i y_i yi是句子中的分词,而 T T T表示句子中的单词总数,并且将语料中所有单词形成的词典标记成 V V V

同时,我们使用双向的lstm作为基本的编码器单元,用来将单词映射成隐语义空间中的词向量。lstm单元的中隐藏状态可以使用如下方式进行计算:
h i → = L S T M f o r w a r d ( h i − 1 → , e ( x i ) ) , ( 2 ) \overrightarrow{h_i}=LSTM_{forward}(\overrightarrow{h_{i-1}},e(x_i)),(2) hi =LSTMforward(hi1 ,e(xi)),(2)
h i ← = L S T M f o r w a r d ( h i − 1 ← , e ( x T − i + 1 ) ) , ( 3 ) \overleftarrow{h_i}=LSTM_{forward}(\overleftarrow{h_{i-1}},e(x_{T-i+1})),(3)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值