【Paper】AAAI 2020 故事生成模型之角色一致性

最新推荐文章于 2024-08-12 11:22:41 发布

zenRRan

最新推荐文章于 2024-08-12 11:22:41 发布

阅读量545

点赞数

一、导读

论文：

A Character-Centric Neural Model for Automated Story Generation

任务：

给定title进行故事生成

本期：

在故事生成模型上显式的获取人物信息和情节与人物之间的关系，以提高可解释性和一致性。

机构：

北大 / 上交 / IBM

代码：

https://github.com/liudany/character-centric

发表：

AAAI2020

二、摘要

自动生成故事是一项具有挑战性的任务，其目标是自动生成尽可能真实的故事，这些故事由连续的情节和一致的角色组成。

最新的一代模型是建立在先进的神经网络，例如，变分自动编码器（VAE），生成对抗网络（GAN），卷积序列到序列模型（convolutional sequence to sequence model）。

虽然这些模型在语言模式的学习上取得了一定的成绩，但是很少有方法考虑到故事类型的属性和先验知识，特别是从可解释性和一致性的角度考虑。

为了填补这一空白，我们提出了一个以人物为中心的神经网络讲故事模型。

在这个模型中，一个故事围绕着给定的人物来创造，即一个故事的每一部分都取决于一个给定的角色和相应的上下文环境。

通过这种方式，我们明确地捕捉人物信息和情节与人物之间的关系，以提高可解释性和一致性。

三、Motivation

在过去，人们会提出各种基于规则或基于模板的方法，这些方法具有显式的先验领域知识。

最近，大量的神经模型被用于故事生成，不需要手工领域知识，因此更适合各种场景。但由于黑箱性质和建模长期依赖关系以及复杂的情节和角色的要求，神经模型仍然受到可解释性和一致性的限制。

对于神经故事生成，以往的框架主要将其作为一个标准的长文档生成任务，并提出将其分解为一个多阶段生成过程来解决长期依赖问题。

对于神经故事生成的经典方法有：首先使用神经语言模型生成中间表示，例如，关键字(Yao et al. 2019)、骨架(Xu et al. 2018)、提示(Fan、Lewis、Dauphin 2018)，然后利用另一个神经语言模型在这些中间表示上生成每个句子。

在此过程中，这些模型可以很好地从训练故事中获取语法和词汇信息，但可能无法将特定于任务的属性考虑进去，例如,显式地建模角色、情节等。

这些方法依旧存在以下问题：

一方面，注重生成框架可能会导致生成的故事无法从故事的角度进行解释，比如一个看似可信的故事可能由不相关的情节和不匹配的人物组成。

另一方面，以往的神经模型主要侧重于语义层面的一致性建模，例如，主题的一致性，跨句的连贯性，而角色的一致性则没有得到探索。

四、本文贡献

本文在借鉴前人的故事生成方法的基础上，结合已有的故事类型知识，我们尝试将深度神经生成网络与角色建模显式结合起来，这被认为是提高角色可信度的有效方法。

具体地说，我们为一个故事分配了一致的角色，并将故事生成过程重新表述为在上下文环境下选择给定角色的一系列动作。

这样，生成的故事的每个部分都明确地将角色与给定的上下文环境相关联，从故事类型的角度增强了生成故事的可解释性。

此外，给定的角色在故事生成过程的每一步都指导着动作选择操作，以促进角色的一致性。在对话系统(Li et al. 2016)中也验证了这种策略可以提高说话人在神经响应生成中的一致性。

在这篇论文中，我们提出了一个以角色为中心的神经讲故事模型，它在分布式嵌入中显式地编码角色以指导故事的生成。

五、模型整体结构

我们将每个角色表示为一个分布式嵌入embedding，它编码角色的个性特征以及角色在不同情况下的表现。

在我们的模型中，故事的发展是由角色和当前情况之间的持续交互驱动的。因此我们将故事生成分解为两个步骤：

首先，我们的模型预测了角色在每个时间步上对当前情况的反应动作。即根据S与C预测V。
其次，通过角色embedding、预测动作和情景信息来生成完整的句子。即根据S、C与V进行句子的生成。

图1:我们模型的整体框架。

实箭头表示每个句子的生成过程。

黑色虚线箭头表示更新过程。

S、C、V分别为上下文内容、角色embedding和预测行为。

如图1所示，我们的模型包含三个元素:角色C、场景S和动作V。前一个生成的句子被用作输入来生成下一个句子。

我们将我们的方法的输入和输出正式定义如下：

输入：
- 标题：T = {t1, t2，…， tm}
- 角色嵌入：C = {c1, c2，…，cp }
- 其中ti表示第i个单词，m表示标题的长度
- 其中ci表示故事中的第i个角色嵌入。
输出：
- 生成的故事：Y = {y1, y2, y3，…， yn}作为我们模型的结果生成
- 其中yi = {wi,1, wi,2, wi,3，…， wi,l}表示生成的故事中总共n个句子中第i个句子
- 其中wi,j表示生成的第i个句子中的第j个单词。

注：原本的故事生成模型是给定title，生成story，本文的模型要求给定title的同时给定character（角色）。这一改进提升了模型效果，增进了角色一致性。但角色需要提前给定，且需要角色本身的社会信息。

六、一个直观的例子

翻译：

标题(给定)	《尖峰时刻》
角色(给定)	警察(以向量表示)
上下文内容	…一场枪战爆发了。
预测的行为	逮捕
生成的句子	陈警官逮捕了一群枪支走私犯。