叙事文章的生成(论文翻译)

1、概述

本文章是对国外一篇论文【 2002 Elsevier Science B.V.】的翻译,主要介绍了一种叙事文章的生成。

一直以来,由于过度关注对故事语法与情节设计,叙事文章的生成的写作质量很差。此外,迄今为止的自然语言生成系统还不能客观地再现自然发生的叙事的多样性或复杂性。本文主要涵盖一下内容。

  1. 以叙事文章与语言学为基础,提出了一个叙事推断模型。
  2. 我们将描述故事的主题结构,以及叙事散文生成系统与AUTHOR模型的端到端实现。
  3. 对生成效果进行评估。

叙事(故事)生成器通常生成角色和情节的宏观发展,然后再从笼统叙事慢慢细化到角色与动作的细致描写。这可以通过整体规划系统(monolithic planning system)实现的,该系统通过将文本字符串与故事规划的操作符相关联来创建文本,如下图所示:

一般来说,自然语言生成(NLG)只能实现单个句子的生成,最近,NLG系统才实现多段文本的生成。另外还有一个非常重要的问题,NLG需要使用文章主体结构来生成详细的句子,但是只靠主题结构的信息是无法生成令人满意的文章的。

为了解决这个问题,我们开发了AUTHOR叙事散文生成架构,用于创建高质量叙事散文。这个架构已经在STORYBOOK中实现。STORYBOOK是一个端到端的叙事散文生成系统。该系统利用叙事规划器以及完整的句子规划器,语料历史,词汇选择模块,修订模块和FUF / SURGE 模块实现小红帽故事的编写。

在确定故事的主题梗概之后,storybook系统将完成一下工作:

  1. 构建段落与语句块

  2. 根据历史语料确定代词的相关引用与指代

  3. 词汇选择分析用于增加事件多样性变化

  4. 将任务,道具和事件映射到语言中

  5. 通过语料聚合,标记,插入或重新排序来修改段落大小,消除语料规划系统产生的较短的文本以及不连贯的句子

  6. 规范语料格式,优化句子表现

为了评估STORYBOOK产生的故事的质量,我们首先创建了一个简化的叙事规划器,能够生成两个不同的小红帽故事。然后,我们通过消除话语历史,词汇选择和修订组件来创建五个不同版本的STORYBOOK,以产生总共10个故事版本,然后由人类评委正式评估。

2、叙事模型

文学家已经从高度抽象与具体描述的多个层面来描述小说和叙事散文。然而,由于当前所有这些理论最终都采用非计算定义,无法作为综合计算模型的基础,为叙事生成提供决策算法。

然而,文学理论在分析叙事散文和小说的相关概念方面有很大的帮助。在叙事评论的文章中,应用最为广泛的两个理论是fabula(故事)和suzjet(情节)(来自俄罗斯的形式主义学派)。虽然,这些理论包含很多层面的内容。但是前者的基本观点是关于叙述文本的深层语义结构,而后者是叙事文本或者故事在时间顺序上的线性体现。

在每一个故事中,都有许多潜在的“事实”构成了故事中发生活动以及这些状活动中涉及的任务对象和相关属性。此外,作者基于叙事的严谨性需要考虑很多因素,首先要提到哪些事件,以及在真正进行写作时,应该考虑哪些因素,以及具体的写作风格。比如小红帽的故事中,有下面的段落:

为了描述本段中的事件和状态,必须首先列举构成它们的对象和属性。对象由三个类别组成,在戏剧术语中将其称为演员、位置和道具。这里列举大多数物品相对容易:一位母亲,一位名叫小红帽的女孩,一位祖母,一些黄油等。本段中的事件也可能列举如下:¨母亲告诉女儿的事情,女儿会带着一些东西给她的祖母”,以及各种各样的状态:小红帽很高兴,很长时间了。fabula是构成故事的这一事实内容的总和。

在每个叙述中,作者可以选择应该提到上述哪个元素,包括哪个应该首先提及,哪个应该稍后提及。这里说的顺序不是事件真正发生的顺序,而是故事的叙述顺序,我们将这种顺序叫做顺序流。它代表了文本中发现的来自fabula的事实的表示顺序。

  1. fabula和叙事流是可分离的,即如果fabula保持不变,通过改变表现顺序可以产生大量的故事,同样,fabula中的变化也可以产生不同的故事。fabula和叙事流的这种分离的动机是不明确的,这种分离方式,有很多因素影响,这些因素包括:
  2. 隐含信息与显性信息:叙述中发生的事件多于文本中实际包含的事件。我们可以想象,小红帽在她离开她的房子和进入森林的路上用她的手打开门,尽管从未提及过这个事实。表象顺序反映了明确的叙事信息,而fabula则是叙述叙事背后隐含信息的体现。
  3. 叙述的区别:对于fabula而言,从哪个角度讲述故事并不重要,因为它只记录了所有事实的发生。然而,叙事流必须考虑到叙述者的数量,第一或第三人叙述者的选择等。
  4. 对话与描述:虽然故事中的人物之间的信息是以各种各样的方式传达的。但是基本上可以分为两种方式:一是人物之间的对话,二是作者的叙述。
  5. 叙事线索:由于小说是一种线性的描述,它强制对事件进行顺序化,并将他们反映在叙事顺序中。相比之下,fabula是一个基本上平行的知识结构,因为它包含可以按任何顺序。

除了故事和故事描述之外,作者为了体现自己的作品,会使用很多风格化的因素。但是风格化的写作与故事本身之间联系与融合的相关研究很少。(注意:由于该论文的时间比较早,还没有基于人工智能序列模型的风格话写作的技术)。主要有以下几个方面:

  1. 叙述者模式:作者可以选择第一,第二或第三人称叙述者。
  2. 句子复杂性:作者可以选择复杂的语法结构,以产生童话故事,如小红帽
  3. 对话的数量和时间:在叙述过程中,作者可以从第2.3.1节中介绍的各种对话模式中进行选择。
  4. 特定用语:作者可能希望使用具有特定内涵价值,技术术语或年龄适当性的词语。

最后,我们必须考虑散文的实现也就是将叙事流和文体指令转换为文本。散文的这些要求与其他潜在的媒体不同,例如电影,它利用图像和声音。

2.1 故事,故事本体论和知识表示

当一个人要编写一个故事时,他需要大量的背景文化知识,包括他之前的写作经验,角色应该如何行动或说话,以及对认知时间的基本知识。这个背景知识库被称为故事本体。

故事本身包含故事本体、角色,事件和对象实例,而这些元素之间密切相关。在某种意义上,情节本身是故事的一个子集。情节是一组特定的按时间顺序排列的事件,可以按任何合理的表现顺序排列。

故事和故事本体是叙事中可枚举概念,概念实例和概念关系的体现。因此,故事和故事本体都被组织为知识库。除了这些概念与本体层次结构之间的分类链接之外,知识库还以标准语义网络形式对概念之间的关系进行编码。

这为在粗略深入研究整个叙事提供了基础结构。单独的语言结构(例如,故事语法)在产生童话故事或短篇故事所需的散文数量方面并未具有可扩展性。虽然严格组织这些知识的成本很高,但却被它在叙事散文的产生和叙事规划过程中,提供的灵活性所抵消。

最后,故事允许多个类似概念的实例。利用继承,系统可以写一个新的小红帽故事,她和她的祖母被两个樵夫(比如WOODMAN001和WOODMAN002)救了,或者也许是一个故事,小红帽不小心走错了森林(FOREST002 vs. FOREST003)。

为了从故事本体创建fabula,我们假设叙事规划者能够使用一小组fabula运算符。在编写故事发生之前,叙事规划者通过使用适当的算子(取决于叙述中的本体类型和目的)来构建fabula中的每个概念实例。fabula运算符在表1中进行了简要描述:

2.2 叙事流和叙事顺序

当作者构造整个故事时,他们会考虑如何对故事情节的发展进行排序。有时会采用故事发生的先后进行排序,有时又会采用更加能引人入胜的顺序来构造整个故事。同时,作者也会突出重点情节,也会省略不太重要的情节。如在神秘小说中,并且为了节省时间或保留读者焦点,例如省略电影人物的生活故事的大部分内容,可以完全消除不感兴趣的事件。

在我们的叙事模型中,这种表现顺序是被应用在叙事流中。叙事流由一系列原始时间组成。我们认为对话可以分解为一系列描述说话者言语行为,这些行为的主要目的是为了影响听话者。典型的言语行为包括说话者在讲话时的目的(或意图)以及话语的命题内容。

然而,叙述包含了许多在奥斯汀最初分析的对话中没有发现的特征,也没有在后来的言语行为理论的应用中找到,包括可修改性(排练),戏剧性因素(情节结构)和阐述。因此,虽然言语行为理论有助于理解和帮助所有叙述所包含的对话,但对于包含较大部分叙述的说明性文本却没那么有用。

在我们的模型中,叙事原语是由叙事规划者与fabula运算符一起生成的,如下图所示。这些原语由叙述组织者与fabula运算符和各种风格因素按顺序处理,产生一系列句子结构,最终直接转换为文本。

叙事流原语分为三个基本类别:

  • 划分基元:创建叙事背景。他们建立场景,介绍角色和叙述者,并描述作者对观众的整体意图。
  • 基本原语:提供了用于在情节和对话中创建句子的大部分原始语料。
  • 修改基元:提供修改基本基元的内容或向基础基元添加细节的信息。

2.2.1 划分基元

作为叙事流中的“导演”因素,划分原语作为组织场景叙事的基础。场景是叙事的一部分,在时间,位置和角色上是连续的。

划分基元也负责制定全局叙事的规划,例如故事设置,叙述模式,流派和散文质量。通常这些设置会贯穿整个故事。但有时也会在故事的进展过程中有一些变化。最后,可以使用划分原语来指示局部细节,例如主题或时间的变化。主要体现在以下几个层面:

叙述模式:此模式指定了叙事模型中描述的全局影响叙事的流派,时间段和其他因素。

讲述者模式:指定后续叙述段落中出现的任何叙述者的确切特征

场景变化:场景变化通知叙事散文生成器当前字符集可能已经改变

场景演员:新的角色在故事的发展中出现,之前的叙述信息中记录的角色的相关信息,所有的对话与情节只能在已经出现的场景演员中进行。

定义复杂事件:从语言描述来讲,故事中的时间、地点、任务都比较容易去描述,但是事件和动作的描述就相对复杂很多。事件定义允许使用简写方法来重新定义事件,并定义它们在时间上,因果关系等方面的相关性。

定义组:演员和道具组可以单独或完全修改。因此“一些黄油和饼干”相当于“一些黄油和一些饼干”,但“大狗和樵夫”很可能不等于“大狗和大樵夫“。

对话演员:对话由一系列转弯组成,在每一回合中,对话中的一个参与者是发言者,其余参与者是听众。对话演员原语标志着这种区别。

对话类型:当话语发生时,无论是直接还是间接,都有许多可能的实现:交际行为排序,说话者排序,说话者方式和交际意图。

主题转换:作者必须决定在什么时候进行主题转化,因为叙述散文发生器本身无法完成这样的工作。

格式:文章等具体展现格式,如标题,段落,字体大小,颜色等

2.2.2 基本原语

叙事段落中的主要内容是通过基本原语产生的,包括在阐述和对话中发现的原语。基本原语类似于言语行为理论中的言外行为,因为它们带有更高层次言语行为的内容成分。在我们的案例中,这些更高层次的行为是出于叙事问题而非对话性问题。

虽然不是特别肯定,但这些原语足以产生与许多现有版本的小红帽,结构和内容的叙述。正如我们看到的效果一样,这些叙事原语足以产生更大的叙事(如小说)或其他类型(如神秘或报纸报道)的语料。

基本原语是由一系列“直接描述目的”的指令构成,在这些指令之后紧跟描述事件关系的相关参数。这些参数包含以下内容:

角色关系:在一些情节发生在两个角色之间时,actor-relationship 原语用于在叙述中明确指出该关系用于描述该关系。

演员动作:这个叙事原语描述了当前场景中的角色执行的动作,以及填充动作关系的对象框架(主题参数列表)。

角色命令:当一个角色命令另一个角色执行某个动作时使用此原语

演员请求:同样,角色可以请求信息或道具。

演员属性:演员属性原语用于给出字符的描述和属性。

演员情感:这种原语表达内部情绪状态以及外在姿势和情绪的面部表情。

演员意图:类似地,演员意图原语提供心理状态的表达,其中角色试图完成某事或让其他人帮助完成某事。

演员情感:另一种类似于演员情感的原语,定向演员情感表达明确投射在另一个角色或物体上的情感。

道具关系:与演员一样,道具与其他道具和角色有关系

道具属性:最后,就像角色一样,道具可以具有固有的和绝对的属性和描述。

2.2.3 修改基元

与基本原语一样,修改原语表示具有语义内容的子句或短语。与基本原语不同,它们不代表“独立”句子。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值