叙事文章的生成（论文翻译）

最新推荐文章于 2024-08-04 17:23:58 发布

孙宝龙

最新推荐文章于 2024-08-04 17:23:58 发布

阅读量1k

点赞数

分类专栏：机器学习与人工智能自然语言处理知识图谱文章标签：论文翻译

本文链接：https://blog.csdn.net/amao1998/article/details/81326517

版权

机器学习与人工智能同时被 3 个专栏收录

24 篇文章 3 订阅

订阅专栏

自然语言处理

15 篇文章 5 订阅

订阅专栏

知识图谱

7 篇文章 4 订阅

订阅专栏

1、概述

本文章是对国外一篇论文【 2002 Elsevier Science B.V.】的翻译，主要介绍了一种叙事文章的生成。

一直以来，由于过度关注对故事语法与情节设计，叙事文章的生成的写作质量很差。此外，迄今为止的自然语言生成系统还不能客观地再现自然发生的叙事的多样性或复杂性。本文主要涵盖一下内容。

以叙事文章与语言学为基础，提出了一个叙事推断模型。
我们将描述故事的主题结构，以及叙事散文生成系统与AUTHOR模型的端到端实现。
对生成效果进行评估。

叙事（故事）生成器通常生成角色和情节的宏观发展，然后再从笼统叙事慢慢细化到角色与动作的细致描写。这可以通过整体规划系统（monolithic planning system）实现的，该系统通过将文本字符串与故事规划的操作符相关联来创建文本，如下图所示：

一般来说，自然语言生成（NLG）只能实现单个句子的生成，最近，NLG系统才实现多段文本的生成。另外还有一个非常重要的问题，NLG需要使用文章主体结构来生成详细的句子，但是只靠主题结构的信息是无法生成令人满意的文章的。

为了解决这个问题，我们开发了AUTHOR叙事散文生成架构，用于创建高质量叙事散文。这个架构已经在STORYBOOK中实现。STORYBOOK是一个端到端的叙事散文生成系统。该系统利用叙事规划器以及完整的句子规划器，语料历史，词汇选择模块，修订模块和FUF / SURGE 模块实现小红帽故事的编写。

在确定故事的主题梗概之后，storybook系统将完成一下工作：

构建段落与语句块
根据历史语料确定代词的相关引用与指代
词汇选择分析用于增加事件多样性变化
将任务，道具和事件映射到语言中
通过语料聚合，标记，插入或重新排序来修改段落大小，消除语料规划系统产生的较短的文本以及不连贯的句子
规范语料格式，优化句子表现

为了评估STORYBOOK产生的故事的质量，我们首先创建了一个简化的叙事规划器，能够生成两个不同的小红帽故事。然后，我们通过消除话语历史，词汇选择和修订组件来创建五个不同版本的STORYBOOK，以产生总共10个故事版本，然后由人类评委正式评估。

2、叙事模型

文学家已经从高度抽象与具体描述的多个层面来描述小说和叙事散文。然而，由于当前所有这些理论最终都采用非计算定义，无法作为综合计算模型的基础，为叙事生成提供决策算法。

然而，文学理论在分析叙事散文和小说的相关概念方面有很大的帮助。在叙事评论的文章中，应用最为广泛的两个理论是fabula(故事)和suzjet（情节）（来自俄罗斯的形式主义学派）。虽然，这些理论包含很多层面的内容。但是前者的基本观点是关于叙述文本的深层语义结构，而后者是叙事文本或者故事在时间顺序上的线性体现。

在每一个故事中，都有许多潜在的“事实”构成了故事中发生活动以及这些状活动中涉及的任务对象和相关属性。此外，作者基于叙事的严谨性需要考虑很多因素，首先要提到哪些事件，以及在真正进行写作时，应该考虑哪些因素，以及具体的写作风格。比如小红帽的故事中，有下面的段落：

为了描述本段中的事件和状态，必须首先列举构成它们的对象和属性。对象由三个类别组成，在戏剧术语中将其称为演员、位置和道具。这里列举大多数物品相对容易：一位母亲，一位名叫小红帽的女孩，一位祖母，一些黄油等。本段中的事件也可能列举如下：¨母亲告诉女儿的事情，女儿会带着一些东西给她的祖母”，以及各种各样的状态：小红帽很高兴，很长时间了。fabula是构成故事的这一事实内容的总和。

在每个叙述中，作者可以选择应该提到上述哪个元素，包括哪个应该首先提及，哪个应该稍后提及。这里说的顺序不是事件真正发生的顺序，而是故事的叙述顺序，我们将这种顺序叫做顺序流。它代表了文本中发现的来自fabula的事实的表示顺序。

fabula和叙事流是可分离的，即如果fabula保持不变，通过改变表现顺序可以产生大量的故事，同样，fabula中的变化也可以产生不同的故事。fabula和叙事流的这种分离的动机是不明确的，这种分离方式，有很多因素影响，这些因素包括：
隐含信息与显性信息：叙述中发生的事件多于文本中实际包含的事件。我们可以想象，小红帽在她离开她的房子和进入森林的路上用她的手打开门，尽管从未提及过这个事实。表象顺序反映了明确的叙事信息，而fabula则是叙述叙事背后隐含信息的体现。
叙述的区别：对于fabula而言，从哪个角度讲述故事并不重要，因为它只记录了所有事实的发生。然而，叙事流必须考虑到叙述者的数量，第一或第三人叙述者的选择等。
对话与描述：虽然故事中的人物之间的信息是以各种各样的方式传达的。但是基本上可以分为两种方式：一是人物之间的对话，二是作者的叙述。
叙事线索：由于小说是一种线性的描述，它强制对事件进行顺序化，并将他们反映在叙事顺序中。相比之下，fabula是一个基本上平行的知识结构，因为它包含可以按任何顺序。

除了故事和故事描述之外，作者为了体现自己的作品，会使用很多风格化的因素。但是风格化的写作与故事本身之间联系与融合的相关研究很少。（注意：由于该论文的时间比较早，还没有基于人工智能序列模型的风格话写作的技术）。主要有以下几个方面：

叙述者模式：作者可以选择第一，第二或第三人称叙述者。
句子复杂性：作者可以选择复杂的语法结构，以产生童话故事，如小红帽
对话的数量和时间：在叙述过程中，作者可以从第2.3.1节中介绍的各种对话模式中进行选择。
特定用语：作者可能希望使用具有特定内涵价值，技术术语或年龄适当性的词语。

最后，我们必须考虑散文的实现也就是将叙事流和文体指令转换为文本。散文的这些要求与其他潜在的媒体不同，例如电影，它利用图像和声音。

2.1 故事，故事本体论和知识表示

当一个人要编写一个故事时，他需要大量的背景文化知识，包括他之前的写作经验，角色应该如何行动或说话，以及对认知时间的基本知识。这个背景知识库被称为故事本体。

故事本身包含故事本体、角色，事件和对象实例，而这些元素之间密切相关。在某种意义上，情节本身是故事的一个子集。情节是一组特定的按时间顺序排列的事件，可以按任何合理的表现顺序排列。

故事和故事本体是叙事中可枚举概念，概念实例和概念关系的体现。因此，故事和故事本体都被组织为知识库。除了这些概念与本体层次结构之间的分类链接之外，知识库还以标准语义网络形式对概念之间的关系进行编码。

这为在粗略深入研究整个叙事提供了基础结构。单独的语言结构（例如，故事语法）在产生童话故事或短篇故事所需的散文数量方面并未具有可扩展性。虽然严格组织这些知识的成本很高，但却被它在叙事散文的产生和叙事规划过程中，提供的灵活性所抵消。

最后，故事允许多个类似概念的实例。利用继承，系统可以写一个新的小红帽故事，她和她的祖母被两个樵夫（比如WOODMAN001和WOODMAN002）救了，或者也许是一个故事，小红帽不小心走错了森林（FOREST002 vs. FOREST003）。

为了从故事本体创建fabula，我们假设叙事规划者能够使用一小组fabula运算符。在编写故事发生之前，叙事规划者通过使用适当的算子（取决于叙述中的本体类型和目的）来构建fabula中的每个概念实例。fabula运算符在表1中进行了简要描述：

2.2 叙事流和叙事顺序

当作者构造整个故事时，他们会考虑如何对故事情节的发展进行排序。有时会采用故事发生的先后进行排序，有时又会采用更加能引人入胜的顺序来构造整个故事。同时，作者也会突出重点情节，也会省略不太重要的情节。如在神秘小说中，并且为了节省时间或保留读者焦点，例如省略电影人物的生活故事的大部分内容，可以完全消除不感兴趣的事件。

在我们的叙事模型中，这种表现顺序是被应用在叙事流中。叙事流由一系列原始时间组成。我们认为对话可以分解为一系列描述说话者言语行为，这些行为的主要目的是为了影响听话者。典型的言语行为包括说话者在讲话时的目的（或意图）以及话语的命题内容。

然而，叙述包含了许多在奥斯汀最初分析的对话中没有发现的特征，也没有在后来的言语行为理论的应用中找到，包括可修改性（排练），戏剧性因素（情节结构）和阐述。因此，虽然言语行为理论有助于理解和帮助所有叙述所包含的对话，但对于包含较大部分叙述的说明性文本却没那么有用。

在我们的模型中，叙事原语是由叙事规划者与fabula运算符一起生成的，如下图所示。这些原语由叙述组织者与fabula运算符和各种风格因素按顺序处理，产生一系列句子结构，最终直接转换为文本。