自然语言生成技术现状调查:核心任务、应用和评估(3)

前面的自然语言生成技术现状调查:核心任务、应用和评估(1)_流萤数点的博客-CSDN博客

自然语言生成技术现状调查:核心任务、应用和评估(2)_流萤数点的博客-CSDN博客

目录

4.视觉语言界面:图像标题及其他

4.1数据

4.2 核心任务

4.2.1图像分析

4.2.2文本生成或检索

4.3语言如何植根于视觉数据?

4.4 视觉和语言:NLG的当前和未来方向

5.变体:生成具有风格、个性和情感的文本

5.1风格生成:文本变异与个性

5.2用感觉生成:情感和礼貌

5.3风格控制对神经网络语言的挑战

5.4风格与情感:结束语


4.视觉语言界面:图像标题及其他

在过去的几年里,人们对自动生成图像标题的兴趣激增,这是研究视觉和语言之间界面的更广泛努力的一部分(Barnard, 2016)。图像标题可以说是数据到文本生成的范例,其中输入以图像的形式出现。这项任务已经成为nlg社区和计算机视觉社区的研究重点,提高了两组研究人员之间更有效的协同作用的可能性。除了它的实际应用之外,基于感知数据的语言长期以来一直是人工智能的科学兴趣问题(见Winograd, 1972;Harnad, 1990;Roy & Reiter, 2005,因其对感知-语言接口的计算挑战的各种理论观点)。

图6显示了一些标题生成的示例,这些示例来自跨度约6年的出版物。当前的标题生成研究主要集中在Hodosh、Young和Hockenmaier(2013)所称的场景中直接描述的元素的具体概念图像描述上。正如Donahue、Hendricks、Rohrbach、Venugopalan、Guadarrama、Saenko和Darrell(2015)所言,图像字幕是一种输入是静态和非顺序的任务(一幅图像,而不是视频),而输出是顺序的(一个多词文本),与对象标签等非顺序输出(例如Duygulu, Barnard, de Freitas, & Forsyth, 2002;Ordonez, Liu, Deng, Choi, Berg, & Berg, 2016,等等)。

我们的讨论将是简短的,因为图像字幕最近一直是Bernardi、Cakici、Elliott、Erdem、Erdem、Ikizler-Cinbis、Keller、Muscat和Plank(2016)的广泛综述的主题,也在Barnard(2016)关于视觉语言界面研究的更广泛问题的背景下进行了讨论。虽然本节借鉴了这些资料,但其组织方式有所不同,也更明确地提出了与nlg的联系。

4.1数据

Bernardi等人(2016)提供了数据集的详细概述。Ferraro、Mostafazadeh、Huang、Vanderwende、Devlin、Galley和Mitchell(2015)对数据集进行了系统的比较,用于标题生成伴随在线资源的可视化问题回答

数据集通常由配以一个或多个人类编写的标题(大多是英语)的图像组成,数据集通常由图像和一个或多个人工编写的字幕(大多是英文)组成,从人工创建的场景到真实的照片都不尽相同(Zitnick, Parikh, & Vander-Wende, 2013)。在后者中,使用最广泛的是Flickr8k (Hodosh等人,2013),Flickr30k (Young, Lai, Hodosh, & Hockenmaier, 2014)和ms-coco (Lin等人,2014)。数据集,如sbu1m配标题照片数据集(Ordonez, Kulkarni, & Berg, 2011),包括用户在Flickr等网站上分享的照片的自然出现的配标题;因此,其中包括的标题并不局限于具体的概念。还有一些专门的、特定于领域的数据集,如加州理工大学ucsd鸟类数据集(cub;沃,布兰森,韦林德,佩罗纳,和贝隆吉,2011年)。

在这一领域也有许多共同的任务,包括coco(“语境中的通用对象”)字幕挑战6,作为大规模场景理解挑战(lsun)7的一部分组织,以及多模态机器翻译任务(Elliott,Frank, Sima’an, & Specia, 2016)。我们将讨论图像字幕系统的评价推迟到本文的第7节,在那里它作为一个整体在nlg评价的背景下进行讨论。

4.2 核心任务

在图像字幕系统中有两个逻辑上可区分的子任务,即图像分析文本生成。这并不是说它们需要分别或按顺序组织起来。但是,在讨论体系结构之前,有必要简要概述一下用于处理这两个任务的方法。

4.2.1图像分析

为标题目的处理视觉信息的方法主要有三组。

Detection

有些系统依赖于计算机视觉方法来检测和标记对象、属性、“东西”(通常映射到大量名词,如草)、空间关系,可能还有动作和姿势信息。这之后通常会有一个步骤,将这些输出映射到语言结构(第二节和第三节讨论的那种“句子计划”),例如树或模板(例如Kulkarni et al, 2011;杨,Teo, Daume III, & Aloimonos, 2011;米切尔等,2012;埃利奥特&德弗里斯,2015年;亚茨卡,加利,范德温德,和泽特勒莫耶,2014年;库兹涅佐娃,奥多涅斯,伯格,崔,2014)。由于性能取决于探测器的覆盖率和准确性(Kuznetsova等,2014;Bernardi等人,2016),一些工作也探索了从金标准图像注释生成(Elliott & Keller, 2013;Wang & Gaizauskas, 2015;Muscat & Belz, 2015)或人工创造的场景,其中组件是预先知道的(Ortiz, Wolff, & Lapata, 2015)。

Holistic scene analysis

整体场景分析

这里使用了更全面的场景特征,依赖于通常无法识别对象、属性等的特征。这些特征包括rgb直方图、尺度不变特征变换(sift;Lowe, 2004),或空间结构的低维表示(如gist;Oliva & Torralba, 2001)等。这种类型的图像处理通常用于根据检索而不是根据标题生成来框定任务的系统。这类系统要么使用单模态空间,在标题检索之前将查询图像与训练图像进行比较。(Ordonez等,2011;Gupta, Verma, & Jawahar, 2012),或利用多模态空间表示图像和标题之间的接近性(例如Hodosh等人,2013;Socher, Karpathy, Le, Manning, & Ng, 2014)。

Dense image feature vectors

密集图像特征向量

鉴于卷积神经网络(cnn)在计算机视觉任务中的成功(例如,LeCun等人,2015),许多深度学习方法使用来自预训练cnn的特征,如AlexNet (Krizhevsky, Sutskever, & Hinton, 2012)、vgg (Simonyan & Zisserman, 2015)或Caffe (Jia, Shelhamer, Donahue, Karayev, Long, Girshick, Guadarrama, & Darrell, 2014)。最常见的是,标题生成器使用来自预训练网络的激活层作为其输入特征(e.g. Kiros, Zemel, &Salakhutdinov, 2014; Karpathy, Joulin, & Fei-Fei, 2014; Karpathy & Fei-Fei, 2015; Vinyals,Toshev, Bengio, & Erhan, 2015; Mao et al., 2015a; Xu et al., 2015; Yagcioglu, Erdem, &Erdem, 2015; Hendricks et al., 2016b).

4.2.2文本生成或检索

根据图像分析技术的类型,可以使用各种不同的方法生成标题,其中以下方法已得到确认。

Using templates or trees

使用模板或树

依靠检测器的系统可以在句子规划阶段将输出映射到语言结构。例如,可以将对象映射到名词,将空间关系映射到介词,等等。Yao、Yang、Lin、Lee和Zhu(2010)使用半监督方法将图像解析为图表,然后通过简单的语法生成文本。其他方法依赖于序列分类算法,如隐马尔可夫模型(Yang等,2011)和条件随机场(Kulkarni等,2011,2013)。Kulkarni等人(2013年,见图6b中的例子)对模板和网络衍生的n-gram语言模型进行了实验,发现前者更流畅,但缺乏变化,这个问题我们在之前的实现中也提到过(第2.6节)。

在Midge系统中(Mitchell et al, 2012,见图6d中的示例标题),输入图像表示为由物体/物体检测、动作/姿势检测和空间关系组成的三元组。这些随后被映射到名词、动词、介词三元组,并使用树替换语法实现。通过使用概率模型“幻觉”可能的单词的能力,这一功能得到了进一步增强,也就是说,根据语料库数据,插入没有直接植根于对图像本身执行的检测,但有很高概率出现的单词。在一项人类评估中,Kulkarni等人(2011)和Yang等人(2011)在一些标准(包括人类的相似性和正确性)上证明了Midge优于该系统。

Elliott和Keller(2013)使用视觉依赖表示(vdr),这是一种类似于依赖语法的形式主义,用于描述基于物理特征(如邻近性和相对位置)的对象之间的空间关系。图像的检测在生成之前被映射到相应的vdr关系(参见Elliott & De Vries, 2015,以及图6c中的示例)。Ortiz等人(2015)使用ilp来识别抽象场景中的对象对(Zitnick & Parikh, 2013),然后将它们映射到vdr。实现被框定为基于vdr-文本对的机器翻译任务。在Lin和Kong(2015)的工作中也发现了识别空间关系的类似问题,他们使用场景图作为基于语法的实现器的输入。Muscat和Belz(2015)提出了一种朴素贝叶斯模型,基于物体接近度和重叠等图像特征来预测空间介词。

Using language models

使用语言模型

使用语言模型具有促进图像-语言对联合训练的潜在优势。如果它被用来克服语法或模板的限制,它还可能产生更有表现力或创造性的标题(如Midge的例子所示;Mitchell et al, 2012)。在某些情况下,在域外数据上训练n-gram模型,Li、Kulkarni、Berg、Berg和Choi(2011)采用了网络尺度的n-gram方法,Fang、Gupta、Iandola、Srivastava、Deng、Doll´ar、Gao、He、Mitchell、Platt、Zitnick和Zweig(2015)采用了最大熵语言模型。

大多数深度学习体系结构以普通rnn或长短期记忆网络的形式使用语言模型(e.g. Kiros et al., 2014; Vinyals et al., 2015; Donahue et al.,2015; Karpathy & Fei-Fei, 2015; Xu et al., 2015; Hendricks et al., 2016b;Hendricks, Akata,Rohrbach, Donahue, Schiele, & Darrell, 2016a; Mao et al., 2016). 这些体系结构将标题生成建模为预测序列中的下一个单词的过程。预测会受到迄今生成的标题历史(或初始单词的开始符号)和图像特征的影响,如前所述,图像特征通常是从物体检测任务训练的cnn中提取的特征。

Caption retrieval and recombination

标题检索与重组

有些系统根据训练数据检索字幕,而不是生成字幕。这样做的好处是,它保证了流畅性,特别是如果检索的是整个标题,而不是部分标题。Hodosh等人(2013)使用多模态空间来表示训练图像和标题,将框架检索作为识别与查询图像最近的标题的过程。“批量”标题检索的想法有很多先例。例如,Farhadi, Hejrati, Sadeghi, Young, Rashtchian, Hockenmaier和Forsyth(2010)使用马尔可夫随机场将图像解析为hobject,action, scenei三元组,并配以解析后的标题。通过将查询图像与训练数据中的解析图像进行比较,检索查询图像的标题,并基于WordNet找到最相似的图像。类似地,Im2Text (Ordonez et al, 2011)系统对查询图像的候选标题进行排序。Devlin, Gupta, Girshick, Mitchell和Zitnick (2015b)使用k近邻方法,用蓝葡萄酒(Papineni, Roukos, Ward, & Zhu, 2002)和苹果酒(Vedantam, Zitnick, & Parikh, 2015)来量化标题相似度。冯和拉帕塔(2010)提出了一种不同的检索观点,他们使用提取摘要技术从新闻文章的周围文本中检索图像描述和相关叙事片段。

批量检索的一个潜在缺点是训练数据中的标题可能与查询图像不匹配。例如,Devlin等人(2015b)指出,查询与训练图像的相似度越低,系统返回的标题就越通用。一个可能的解决方案是使用部分匹配,检索和重组标题片段。

Kuznetsova等人(2014)使用检测器将查询图像与训练实例进行匹配,以解析树片段的形式检索标题,然后对其进行重组。Mason和Charniak(2014)使用特定于领域的数据集提取描述,并使用视觉和文本词汇袋联合模型将其调整为查询图像。在深度学习范式中,Socher等人(2014)和Karpathy等人(2014)都使用了从依赖分析中衍生出来的单词嵌入,它们与cnn图像特征一起被投影到一个多模态空间中。Karpathy和Fei-Fei(2015)的后续工作表明,这种细粒度配对同样适用于单词序列,避免了依赖解析的需要。

最近,Devlin、Cheng、Fang、Gupta、Deng、He、Zweig和Mitchell (2015a)将最近邻检索方法与不同类型的用于标题生成的语言模型进行了比较,具体来说,是Fang等人(2015)的最大熵方法,一种基于lstm的方法,以及与cnn耦合的rnn用于图像分析(例如Vinyals等人,2015;Donahue等,2015;Karpathy &飞飞,2015)。对字幕的语言质量的比较表明,所有模型都有复制训练集中观察到的字幕的显著趋势,在测试集中对不同的图像重复它们。这可能是由于数据缺乏多样性,这也可以解释为什么最近邻方法优于基于语言模型的方法。

4.3语言如何植根于视觉数据?

正如前面的讨论所表明的,对视觉数据和语言数据之间关系的看法取决于如何处理这两个子任务。因此,依赖于检测的系统往往在输入处理和内容选择与句子规划和实现之间做出相当明确的区分。

Kulkarni等,2011;米切尔等,2012;Elliott & Keller, 2013)。语言表达和视觉特征之间的联系是由检测器的结果介导的。

例如,Midge (Mitchell et al, 2012)在用属性(映射到形容词)和动词填充标题之前,使用对象检测来确定要提到哪些名词。类似地,Elliott和Keller(2013)使用vdr来确定空间表达。

基于检索的系统依赖于单模态或多模态相似空间,更间接地表示语言表达式和图像特征之间的联系。在这里,相似性起着主导作用。在单模态空间中(Ordonez等,2011;Gupta等,2012;Mason & Charniak, 2014;库兹涅佐娃,奥多涅斯,伯格,伯格,崔,2012;Kuznetsova et al, 2014),它是图像进行比较,根据图像的相似性检索(部分)标题。许多深度学习方法也大致符合这个方案。例如,Yagcioglu等人(2015)和Devlin等人(2015b)对查询图像的标题进行检索和排序,使用cnn表示视觉空间。相比之下,多模态空间涉及视觉和语言特征之间的直接映射(例如Hodosh等人,2013;Socher等,2014;Karpathy等人,2014年),使系统能够从图像映射到“相似的”——即相关或相关的标题。

许多关于视觉-语言整合的有趣工作正在用深度学习模型进行。Kiros等人(2014)引入了多模态神经语言模型(mrnn),对两种主要体系结构进行了实验。他们的模态偏倚对数双线性模型(mlbl-b)基于语言背景和cnn图像特征,使用相加偏差来预测序列中的下一个单词。因子三向对数双线性模型(mlbl-f)也对具有图像特征的单词的表示矩阵进行门化。与此相关,Donahue等人(2015)提出了一种cnn + lstm组合架构(Venugopalan, Xu, Donahue, Rohrbach, Mooney, & Saenko, 2015b中也使用了该架构;Venugopalan, Rohrbach, Darrell, Donahue, Saenko, & Mooney, 2015a,用于视频字幕),其中下一个单词被预测为前一个单词和图像特征的函数。在该体系结构的一个版本中,他们在每个时间步中将cnn特性注入到lstm中。在第二个版本中,他们使用两个堆叠的lstms,第一个lstms接受cnn特征并产生一个输出,该输出构成下一个lstm的输入,以预测单词。最后,毛等人(2015a)对各种MRNN配置进行实验,在一个体系结构中,在循环层之前有两个单词嵌入层,循环层又投影到一个多模态层中,其中语言特征与CNN特征相结合,获得了最佳结果。上面的图6e显示了一个示例标题。

这些神经网络模型阐明了在不同阶段结合这两种模式的后果,反映了Manning (2015, cf.第3.3.5节)提出的观点,即这种范式鼓励关注架构和设计。特别是,在Donahue等人(2015)的工作中,图像特征可用于在rnn的开始或每个时间步处对重复的语言生成层进行偏移。或者,图像特征可以在rnn之后的一个阶段与语言特征相结合,如Mao等人的工作(2015a)。

4.4 视觉和语言:NLG的当前和未来方向

图像到文本生成是nlg的一个领域,其中深度学习方法占据了明显的主导地位。目前的工作集中于一些主题:

  1. 如Devlin等人(2015a)的工作所示,超越训练数据的概括仍然是一项挑战。更一般地说,处理新图像仍然很困难,尽管已经进行了使用域外训练数据来扩展词汇的实验(Ordonez,Deng,Choi,Berg,&Berg,2013),学习新概念(Mao,Xu,Yang,Wang,Huang,&Yuille,2015b)或将特征从包含已知标签的图像区域转移到相似的图像区域,但之前未经测试(Hendricks等人,2016b,图6f中显示了示例说明)。零镜头学习的进展,其目的是识别或分类很少或没有训练数据可用的图像,可能有助于解决数据稀疏问题(例如Antol,Zitnick,&Parikh,2014;Elhoseiny,Elgammal,&Saleh,2017)。
  2. 巴纳德(Barnard)(2016)所指的本地化也受到关注,即语言表达与图像部分的关联,以及生成特定图像区域描述的能力。最近的工作包括Karpathy和Fei Fei(2015)、Johnson、Karpathi和Fei-Fei(2016)以及Mao等人(2016),他们专注于对图像中特定图像区域和/或对象的明确描述(有关一些相关工作,请参见上文第2.5节)。基于注意力的模型是这方面的进一步发展。这些已被用于各种seq2seq任务,尤其是机器翻译(Bahdanau等人,2015)。在图像字幕的情况下,想法是根据当前上下文为训练数据中的字幕部分分配可变权重,以反映给定先前单词和图像区域的单词的“相关性”(Xu等人,2015)。
  3. 最近的工作也开始探索超越具体概念的图像生成,例如,生成解释性描述(Hendricks等人,2016a)。另一个发展是视觉问答,其目的不是描述性字幕,而是对关于图像的特定问题做出回应(Antol,Agrawal,Lu,Mitchell,Batra,Zitnick,&Parikh,2015;Geman,Geman,Hallonquist,&Younes,2015;Malinowski,Rohrbach,&Fritz,2016;Barnard,2016;Mostafazadeh,Misra,Devlin,Michell,He,&Vanderwende,2016)。最近,提出了一个新的数据集,提供了具体的概念和“叙事”文本以及图像(Huang、Ferraro、Mostafazadeh、Misra、Agrawal、Devlin、Girshick、He、Kohli、Batra、Zitnick、Parikh、Vanderwende、Galley和Mitchell,2016),这是nlg这一分支的一个有希望的新方向。
  4. 越来越多的工作将任务从静态输入概括为连续输入,尤其是视频(例如,Kojima、Tamura和Fukunaga,2002;Regneri、Rohrbach、Wetzel和Thater,2013;Venugoplan等人,2015b、2015a)。这样挑战包括处理场景之间的时间依赖性,以及处理冗余。

5.变体:生成具有风格、个性和情感的文本

根据前面的章节,读者可以理解,nlg主要关注传递事实信息,无论是天气数据摘要还是图像描述。这一偏见也在引言中被标记出来,我们在引言部分简要概述了一些应用领域,并指出,通知通常是nlg的目标,尽管并非总是如此。

然而,在过去十年左右的时间里,nlg文献中有一种越来越大的趋势,即也关注文本信息传递的一些方面,这些方面可以说是非命题的,也就是说,文本的特征严格来说不是基于输入数据,而是与传递方式有关。在本节中,我们关注这些趋势,从“文体变异”的广义概念开始,然后转向情感文本的生成和礼貌。

5.1风格生成:文本变异与个性

术语“语言风格”是指什么?我们所称的“风格nlg”的大多数工作都避开了严格的定义,更倾向于用与当前问题最相关的术语来操作这个概念。

“风格”通常被理解为指词汇、语法和语义的特征,这些特征共同有助于语言使用实例的可识别性,如与特定作者或特定情境有关(因此,人们可以区分文体形式的层次,或谈到威廉·福克纳风格的独特特征)。这意味着,对风格的任何调查都必须关注其本身,至少在一定程度上,标记这种创作或情境变量的特征之间的变化。根据这一用法,本节回顾了nlg的发展,其中变异是主要关注点,通常是战术层面,而不是战略层面,其思想是给定的信息可以以不同的语言方式传递(参见van der Sluis&Mellish,2010)。例如,Power、Scott和Bouayad Agha(2003)明确采用了这一策略。

鉴于其对语言特征的强调,控制风格(无论其如何定义)是nlg非常感兴趣的问题,因为它直接解决了选择问题,这可以说是任何nlg系统的标志(参见Reiter,2010)。该领域的早期贡献使用规则来定义文体特征,以根据语用或文体目标改变生成。例如,McDonald和Pustejovsky(1985)认为,“散文风格是在从概念表征层面到语言层面的过渡过程中所做决定的结果”(第61页),从而将问题置于句子规划和实现领域。DiMarco和Hirst(1993)也采用了这一立场,他们专注于句法变异,提出了英语和法语的文体语法。Sheikha和Inkpen(2011)提出了对SimpleNLG实现器的改编(Gatt等人,2009),以通过特定的特征,如缩略语(不是与不是)和词汇选择来处理正式与非正式语言。

Walker、Rambow和Rogati(2002)采用了文体变异的相关观点,他们描述了现场句子规划师如何适应不同交际目标的学习策略,这反映在句子计划的修辞和句法结构中。规划师接受了一种增强技巧的训练,以学习句子计划的特征与人类对不同交际目标的输出样本是否充分的评价之间的相关性。

与Walker等人(2002)一样,当代的文体变异方法倾向于避开规则,转而采用数据驱动的方法来识别语料库中变异的相关特征和维度,这可以被认为是一种风格的归纳观点,其中变异的特征是任何被认为相关的语言特征的分布。这一观点的一个重要先例是Biber基于语料库的风格和语域变化多维方法(Biber,1988),与DiMarco和Hirst(1993)的语法启发方法大致相同。

Biber的模型是Paiva和Evans(2005)工作的核心,它展示了与第3.3节中讨论的“全球”nlg统计方法的一些共同特征,因为它利用统计信息为相关选择点的决策提供信息,而不是过滤过度生成模块的输出。Paiva和Evans(2005)使用患者信息传单语料库,对其语言特征进行因子分析,以确定两个文体维度。然后,他们允许他们的系统生成大量文本,在多个选择点(例如,选择代词与完整np)并保持跟踪。然后在两个文体维度上对文本进行评分,并开发了一个线性回归模型,以根据系统所做的选择预测维度上的评分。在测试过程中使用该模型预测每个选择点的最佳选择,给出所需的样式。然而,风格是文本的一个全球性特征,尽管它会伴随着局部决策。这些作者通过使用最佳优先搜索算法来识别线性模型评分的一系列局部决策,从而解决了这个问题,这最有可能最大化期望的风格效果,产生如下变化(来自Paiva&Evans,2005,第61页):

(18) The dose of the patient’s medicine is taken twice a day. It is two grams.

(19) The two-gram dose of the patient’s medicine is taken twice a day.

(20) The patient takes the two-gram dose of the patient’s medicine twice a day.

(18) 病人的药一天吃两次。它是两克。

(19) 患者每天服用两次两克的药物。

(20) 患者每天两次服用两克的药物。

一些作者(例如,Mairesse&Walker,2011,下文将详细介绍)指出,某些特征一旦被选中,可能会“取消”或模糊其他特征的风格效果。这就提出了一个问题,即风格实际上是否可以被建模为一种线性的、相加的现象,在这种现象中,每个特征都独立于其他特征(以其在回归方程中的权重为模)而对风格的整体感知做出贡献。

第二个问题是,文体变化是否可以以更具体的方式建模,例如,通过为特定作者量身定制风格,而不是与“正式”、“参与”等相关的通用维度。例如,Reiter等人(2005)对人类书面天气预报进行的基于语料库的分析发现,词汇选择部分取决于作者。有一项工作使用引用表达式的语料库来研究这一点,如金枪鱼语料库(van Deemter,Gatt,van der Sluis,&Power,2012a),其中不同作者的多个引用表达式可用于给定的输入域。例如,Bohnet(2008)和Di Fabbrizio、Stent和Bangalore(2008)探索用于学习特定属性的个人偏好的统计方法,Viethen和Dale(2010)也采用了这一策略。Herv´as、Francisco和Gerv´s(2013)在实现指称表达的一组语义属性时,使用基于案例的推理来告知词汇选择,其中案例库区分语料库中的作者,以考虑个人的词汇化偏好(另见Hervás、Arroyo、Francis、Peinado和Gervs,2016)。

Mairesse和Walker(20102011)在对话系统nlg的背景下,对个体差异的更雄心勃勃的观点出现在他们的工作中。在这里,目的是改变发电机的输出,从而投射出不同的性格特征。与Biber(1988)的模型类似,这里通过经典的“大5”模型(例如,John&Srivastava,1999)给出了人格的多维定义,其中人格是五个主要特征(例如内向/外向)的组合。尽管文体变异通常被定义为一种语言现象,人格的语言特征只间接地反映在口语或写作中(一个假设是许多关于检测文本中个性和其他特征的工作的基础,包括Oberlander&Nowson,2006;Argamon,Koppel,Pennebaker,&Schler,2007;Schwartz,Eichstaedt,Kern,Dziurzynski,Ramones,Agrawal,Shah,Kosinski,Stillwell,Seligman,&Ungar,2013;Youyou,Kosinki,&Stillwell2015)。

Mairesse和Walker的人物系统最初基于对心理学文献的详尽审查(Mairesse&Walker,2010)得出的规则,在餐厅领域发展起来。随后,该系统的数据驱动版本(Mairesse&Walker,2011)将一个务实的目标作为输入,并像Paiva和Evans(2005)的系统一样,列出了一系列真正有价值的风格参数,这一次代表了五种性格特征的得分。该系统使用从将样本话语与人类性格判断配对的数据集中获取的机器学习模型,基于输入特征估计文体特征的生成参数。例如,与更内敛的风格相比,反映高度外向的话语可能更冗长,涉及更多的脏话(21),这可能会表现出更多的不确定性,例如通过结巴和对冲(22)。

(21) Kin Khao and Tossed are bloody outstanding. Kin Khao just has rude staff. Tossed features sort of unmannered waiters, even if the food is somewhat quite adequate.

(22) Err... I am not really sure. Tossed offers kind of decent food. Mmhm... However, Kin Khao, which has quite ad-ad-adequate food, is a thai place. You would probably enjoy these restaurants.

(21)Kin Khao和Tossed非常出色。金考只是有粗鲁的员工。尽管食物相当充足,但“乱扔”还是有点像是没有管理的服务员。

(22)呃…我不太确定。Tossed提供了一种像样的食物。嗯……然而,金考是一个泰国地方,那里有相当充足的食物。你可能会喜欢这些餐馆。

Mairesse和Walker(2011)报告的人类受试者评估的一个有趣的结果是,读者对给定文本实际反映的个性的判断存在很大差异。这表明,这些心理特征与其语言效果之间的关系远非直截了当。Walker、Lin、Sawyer、Grant、Buell和Wardrip Fruin(2011b)将基于规则的人物模型中的“大5”模型与基于语料库的模型进行了比较,该模型取自电影剧本中的人物话语。这些模型用于生成增强现实游戏中角色的话语;他们的主要发现是塑造人物的风格与基于人格特征的模型相比,直接使用语料库会产生更具体、更容易感知的特征,因为人格特征与个人风格之间的关系更为间接。在另一组为角色扮演游戏中的角色生成话语的实验中,Walker、Grant、Sawyer、Lin、Wardrip Fruin和Buell(2011a)报告了通过根据电影对话中确定的特征调整人物角色的一些参数,成功将其移植到新的领域。从电影语料库中学习到的模特被发现在风格上与他们实际所塑造的角色非常接近。

5.2用感觉生成:情感和礼貌

人格通常是根据特征来考虑的,这些特征在时间上相对稳定。然而,语言的使用可能不仅因个体的稳定特征而不同,也因个体的短暂情感状态而不同情感nlg(De Rosis&Grasso,2000年的一个术语)与反映情绪状态的变化有关,与人格特征不同,情绪状态是相对短暂的。在这种情况下,目标可以是双重的:(i)诱导接收者的情绪状态;或(ii)反映制作人的情绪状态。

正如Belz(2003)所指出的,就人格而言,情感和语言之间的关系还很不清楚。首先,目前尚不清楚是否只需要影响表面的语言选择。一些作者认为,文本的情感影响会影响内容选择;例如,在电子健康的一些应用中,这种立场已经被采用,在这些应用中,健康相关问题的报告应该对其潜在的情绪影响敏感(DiMarco,Covvey,Bray,Cowan,DiCiccio,Hovy,Mulholland,&Lipa,2007;Mahamood&Reiter,2011)。

然而,大多数关于情感nlg的工作都集中在战术选择上(例如,Hovy,1988;Fleischman&Hovy(2002);Strong,Mehta,Mishra,Jones,&Ram,2007;van Deemter,Krenn,Piwek,Klesen,Schr¨oder,&Baumann,2008;Keshtkar&Inkpen,2011)。可以产生情绪影响的各种语言特征已经被确定,从增加使用冗余来增强对充满情绪的信息的理解(Walker,1992;De Rosis&Grasso,2000),到增加使用第一人称代词和副词,以及句子排序以实现强调或减少负面情绪影响(De Rosis&Grassa,2000)。

这项关于情感nlg的研究依赖于不同复杂程度和认知合理性的情感模型。然而,所有这些方法背后的共同趋势是,情绪状态应该影响词汇、句法和其他语言选择。那么问题是,这样的选择在多大程度上被系统的读者或用户实际感知。

在一项实证研究中,van der Sluis和Mellish(2010)报告了两项实验,研究了各种策略决定对文本对读者情感影响的影响。在一个实验中,文本向参与者提供了一份关于他们在能力测试中表现的(假)报告,其中包括人工诱导的变化,例如:

(23) Positive slant: On top of this you also outperformed most people in your age group
with your exceptional scores for Imagination and Creativity (7.9 vs 7.2) and Logical-
Mathematical Intelligence (7.1 vs. 6.5).

(24) Neutral/factual slant: You did better than most people in your age group with your
scores for Imagination and Creativity (7.9 vs 7.2) and Logical-Mathematical
Intelligence (7.1 vs. 6.5).

(23)积极倾向:除此之外,你的想象力和创造力(7.9对7.2)和逻辑数学智能(7.1对6.5)的优异成绩也超过了同龄组的大多数人。

(24)中性/事实倾向:你的想象力和创造力(7.9 vs 7.2)和逻辑数学智能(7.1 vs 6.5)的得分比你这个年龄段的大多数人都好。

对这些文本的评估表明,情感策略决定对听者情绪状态的影响程度取决于一系列其他因素,包括读者对文本所说内容的直接影响程度(在能力倾向测试的情况下,读者会认为结果与个人相关)。这项研究提出的一个重要问题是如何衡量情绪:van der Sluis和Mellish(2010)使用标准化的自我评估问卷来评估阅读文本前后情绪的变化,但衡量情绪的最佳方法仍然是一个悬而未决的问题

作者或说话者所使用的语言中的情感倾向可能会影响到听者或读者可能感到“受到冲击”的程度。这在交互系统中变得尤为重要,因为nlg组件在对话的上下文中生成语言。例如,考虑这些请求之间的差异:

(25) Direct strategy: Chop the tomatoes!
(26) Approval strategy: Would it be possible for you to chop the tomatoes?
(27) Autonomy strategy: Could you possibly chop the tomatoes?
(28) Indirect strategy: The tomatoes aren’t chopped yet.

(25)直接策略:切碎西红柿!

(26)批准策略:你有可能把西红柿切碎吗?

(27)自主策略:你能把西红柿切碎吗?

(28)间接策略:西红柿还没有切碎。

根据一个有影响力的报道(Brown&Levinson,1987),上述四种策略表现出不同程度的礼貌,这取决于面子。正面的表情反映了演讲者希望与对话者分享她的一些目标;消极的面孔是指演讲者希望自己的目标不会受到他人的影响。我们上面提到的与情感的联系取决于这些区别:不同程度的礼貌反映了对听众的不同程度的“威胁”;因此,基于右脸策略的语言生成可以被视为情感nlg的一个分支。

沃克、卡恩和惠特克(1997年)在一项早期的、有影响力的提案中,提出了布朗和莱文森(1987年)框架的解释,即上文(25-28)中例举的四种对话策略。随后,Moore、Porayska Pomsta、Zinn和Varges(2004)在生成教程反馈时使用了这一框架,其中语篇规划师使用贝叶斯网络来告知在给定上下文中与目标礼貌/情感值兼容的语言选择(相关方法见Johnson、Rizzo、Bosma、Kole、Ghijsen和Van Welbergen,2004)。

Gupta、Walker和Romano(2007)也使用了Walker等人(1997)在polly系统中确定的四种对话策略,该系统使用基于条带的计划生成一个在协作任务中分布在两个代理之间的计划(另请参见Gupta,Walker,&Romano,2008)。在他们的评估中,一个有趣的发现是,对面部威胁的感知取决于言语行为;例如,请求可能更具威胁性。Gupta等人(2007)还指出,在对面部威胁的感知上可能存在文化差异(在本例中,英国和印度参与者之间)。

5.3风格控制对神经网络语言的挑战

在过去的几年里,风格——尤其是情感——nlg引起了研究神经生成方法的研究人员的新兴趣。这里可以观察到的趋势反映了我们对深度学习方法的总体概述(第3.3.5节)中概述的趋势。

许多模型侧重于响应生成(在对话或社交媒体交流的背景下),其中的任务是在给定话语的情况下生成响应。因此,这些模型很适合seq2seq或编码器-解码器框架(见第3.3.5节讨论)。通常,这些模型利用社交媒体数据,尤其是来自Twitter的数据,这一趋势至少可以追溯到Ritter、Cherry和Dolan(2011),他们将基于短语的机器翻译模型用于响应生成。例如,Li等人(2016)提出了一种基于人物角色的模型,其中解码器lstm以从与个人说话人/作者相关的推文中获得的嵌入为条件。另一种模型对说话人和收信人的个人资料都有条件,目的是不仅要考虑说话人的“角色”,还要考虑其对不同对话者的可变性。Herzig等人(2017)也在研究推特数据,他们的解码器基于“五大”模型从推特中提取的个性特征,而不是特定于说话人的嵌入。这样做的好处是,不需要重新训练以适应特定的说话者风格,就无法将发生器调整到特定的个性设置。虽然他们基于个性的模型没有击败李等人的模型,但一项人类评估表明,法官能够将高特质反应识别为比低特质反应更具表现力,这表明条件反射对风格有显著影响。在对话背景下,Asghar等人(2017)提出在三个层面上实现情感反应:(a)通过使用情感词典中的数据增强单词嵌入;(b) 通过使用影响敏感波束搜索进行解码;和(c)通过情感敏感损失功能训练。

另一方面,许多模型将lstm置于反映情感或性格特征的属性上,以期生成表达这些特征的字符串。

Ghosh、Cholet、Laksana、Morency和Scherer(2017)使用基于情感类别和情绪强度的语音语料库训练的lstms来驱动词汇选择。Hu等人(2017)使用可变自动编码器和属性鉴别器,分别控制生成文本的风格参数。他们尝试控制情绪和时态,但将这一代人限制在最多16个单词的句子中。相比之下,Ficler和Goldberg(2017)扩展了用于调节lstm的参数范围,包括两个与内容相关的属性(情感和主题)和四个风格参数(长度、文本是否描述性、是否有个人声音以及风格是否专业)。他们的制作人接受了电影评论语料库的训练。类似地,Dong、Huang、Wei、Lapata、Zhou和Xu(2017)提出了基于亚马逊用户评论语料库的产品评论生成属性到序列模型(另请参见Lipton等人,2016;Tang等人,2016,产品评论生成神经模型)。条件反射包括评论者id,这让人联想到Li等人(2016)的基于角色的反应模型;然而,它们还包括评级,其功能是调节输出中的影响。他们的模型结合了一种注意力机制,在解码过程中预测下一个单词时,将注意力集中在输入编码的不同部分。例如,对于特定审阅者和特定产品,将输入评级从1更改为5会产生以下差异:

(29) (Rating: 1) im sorry to say this was a very boring book. i didnt finish it. im not a
new fan of the series, but this was a disappointment
(30) (Rating: 5) this was a very good book. i enjoyed the characters and the story line.
im looking forward to reading more in this series.

(29)(评分:1)很抱歉,这是一本很无聊的书。我没有读完。我不是这个系列的新粉丝,但这是一本令人失望的书

(30)(评分:5)。这是一部非常好的书。我喜欢角色和故事情节。我期待在本系列中阅读更多内容。

5.4风格与情感:结束语

控制nlg中的风格、情感和基于个性的变化仍处于一个相当初级的阶段,有几个理论和计算意义的开放问题。

其中的一个问题是,如何最好地建模复杂的多维结构,如个性或情感;这个问题既涉及到告知语言选择的模型的认知合理性,也涉及到可用于该任务的不同机器学习策略的实际可行性(例如,线性、加法模型与更“全局”的个性或风格模型)。这里同样重要的是用于告知生成策略的数据类型:正如我们上面所看到的,许多情感nlg工作依赖于人类评委的评分。然而,最近在情感计算方面的一些工作对评级的使用提出了质疑,将其与基于排名和生理学的方法进行了比较(例如,Martinez,Yannakakis,&Hallam,2014;Yannakikis&Mart´ınez,2015)。这项研究和类似的研究可能对nlg研究人员具有很高的相关性。最近的一些工作依赖于使用ibm的personality Insights等工具自动提取个性特征(Herzig等人,2017)。随着这类工具(另一个例子是语言查询和字数或liwc,Pennebaker,Booth,&Francis,2007)变得更加可靠和广泛可用,我们可能会看到对人类启发的依赖性下降。

第二个重要的问题是,哪些语言选择真正向读者或听众传达了预期的变化。虽然目前的系统使用了一系列的设备,从聚合策略到词汇选择,但尚不清楚哪些设备实际被认为具有预期效果。

第三个重要的研究途径,尤其与交互系统相关,是适应性,即说话者(或系统)因对话者的话语而改变其语言选择的方式(Clark,1996;Niederhoffer&Pennebaker,2002;Pickering&Garrod,2004),这一主题也开始在nlg中探索(Isard、Brockmann和Oberlander,2006;Herzig等人,2017)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

流萤数点

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值