使用Encoder-Decoder模型自动生成对联的思路——encode-decoder理解（3）

最新推荐文章于 2024-04-28 10:24:11 发布

奔跑的毛毛虫

最新推荐文章于 2024-04-28 10:24:11 发布

阅读量1k

点赞数 1

分类专栏：语音识别

语音识别专栏收录该内容

10 篇文章 2 订阅

订阅专栏

|Encoder-Decoder模型

Encoder-Decoder框架可以看作是一种文本处理领域的研究模式，应用场景异常广泛。下图是文本处理领域里常用的Encoder-Decoder框架最抽象的一种表示：

图1. 抽象的Encoder-Decoder框架

Encoder-Decoder框架可以这么直观地去理解：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。对于句子对<X,Y>，我们的目标是给定输入句子X，期待通过Encoder-Decoder框架来生成目标句子Y。X和Y可以是同一种语言，也可以是两种不同的语言。而X和Y分别由各自的单词序列构成：

Encoder顾名思义就是对输入句子X进行编码，将输入句子通过非线性变换转化为中间语义表示C：

对于解码器Decoder来说，其任务是根据句子X的中间语义表示C和之前已经生成的历史信息y1,y2….yi-1来生成i时刻要生成的单词yi

每个yi都依次这么产生，那么看起来就是整个系统根据输入句子X生成了目标句子Y。

|Encoder-Decoder自动生成对联

机器自动生成对联这个事情，可以分成两种情况，一种情形是：假设对联的上联是已经知道的，比如人自己想的，任务是由机器来自动产生下联；第二种情况是：假设要求上下联全部都由机器自动生成。明显第一种情况要求较低，相对简单，第二种情况要求较高，相对复杂。下面我们分述两者的可能解决思路。

情形一：已知上联，机器自动生成下联

假设我们已经拿到了上联，例如：“风云三尺剑”，如何让机器自动生成下联？

很明显，这个问题直接可以由Encoder-Decoder框架来进行下联自动生成。这种场景是典型的Encoder-Decoder框架应用问题。我们所需要做的就是配置好Encoder-Decoder框架的具体模型，比如Encoder和Decoder都采用RNN模型来做，图2展示了用Encoder-Decoder框架做对联下联自动生成的架构图。

图2. Encoder-Decoder生成下联

只需要找到大量的对联数据对这个模型进行训练，那么即可利用这个模型，输入上联，机器自动产生下联了。

对于做对联这个事情来说，Encoder-Decoder框架加上Attention应该会显著提升产生下联的质量，原因还是因为它是要求严格对仗的，所以在生成下联某个字的时候，找到对应上联相应字作为生成的重点参考信息无疑是非常重要的。比如看到上联的“三”字，Attention模型使得下联产生对应字“一”的时候重点参考上联的“三”这个字，应该知道对应的应该是一个数字型汉字。图3是加上Attention模型的示意图。

图3. Attention模型

这里再插上一句，作为对联下联生成任务来说，使用Encoder-Decoder来做这个事情，我相信汉字之间的对仗关系应该能够很好地被学会，但是如何保证生成下联语义能够一致其实并不一定能够很好地解决。这是什么意思呢？意思是可能机器看到上联“风云三尺剑”，极有可能对出下面的内容：“雨风万丈刀”，单看每个字对仗的都很工整，但是作为一个整体，语义看上去不那么协调。（注：其实如果真对出这个下联，想想其实还是挺豪情万丈的，是吧？这其实跟人在意识上会把连续出现的字通过想象组合出一种合理语境有关。）

当然如果训练数据够大的话，这个问题应该不会太大，因为本质上Encoder-Decoder在解码阶段是能够学会语言模型的，而很明显语言模型的引入对于生成下联的可读性和语言一致性是很有帮助的。但是如果训练数据不是那么大，我相信通过使用大量古诗来训练一个诗词语言模型，在Decoder生成阶段，每个时间节点t生成很多可能的候选汉字，然后利用这个语言模型+Beam Search应该能够使得生成的对联保证一定的语义一致性。

到此为止，作为对联生成其实还有个问题，就是上下联对应汉字的平厌问题，这个也可以类似语言模型一样作为后处理的步骤进行筛选过滤。不过我觉得Encoder-Decoder也极有可能会学会这种平厌关系，因为这个规律还是很明显的，这点不确定，得通过实验来证明这一点。

情形二：对联由机器完全自动生成

上面讲的是如果上联是人给出的，机器如何自动产生和顺的下联。那么如果问题难度增加一下，如果上联也不知道，机器能够完全自动生成完整的一幅对联吗？

很明显，情形一是情形二的子问题，假设我们分两步来完全自动地生成对联，第一步是不论用什么方法，先生成一句上联。第二步根据上联自动生成下联。第二步明显可以使用情形一训练出的模型来做。所以情形二的关键问题转换为：如何在一无所知情况下生成一句上联？

我觉得这个子问题可以通过如下方式解决：使用RNN构建一个古诗词的语言模型，然后上联通过这个RNN语言模型自动生成，这从道理上是讲得通的。也就是说，整体架构如图4所示。

图4 完全自动生成对联

此外，对于对联来说，还遗留一个小问题，就是对联的横批如何生成的问题。因为一般对联还需要配上一个横批来归纳上下联的主旨。这个其实思路也是类似的，可以把上下联看做一个整体作为Encoder的输入，Decoder用来生成横批即可，这个类似于用Encoder-Decoder+Attention做摘要的思路。关键是有没有那么多训练数据是带横批的，我觉得这个挺悬的。