提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
文本对齐是自然语言处理、计算语言学和数字人文学科等文本相关领域的基本技术之一。它将两个或两个以上的文本相互比较,目的是找到相似的文本模式,或者估计文本之间的差异或相似程度。可视化对齐结果是一项基本任务,因为它有助于研究人员全面了解个人发现和整体模式结构。根据文本大小、对齐方法,以及最重要的是,需要对齐的基础研究任务,已经开发了不同的方法来可视化和帮助理解这些模式。在这些任务的基础上,我们回顾了现有的文本对齐可视化方法,并讨论了它们的优缺点。我们最终得出了设计含义,并阐明了相关的未来挑战。
一、介绍
对齐是指在两个或多个数据对象之间发现相似和不同的模式。它是许多领域中的一项基本且广泛使用的技术,其中之一是生物信息学,其中DNA、RNA和蛋白质的序列对齐以检测可能被视为结构或功能关系证据的相似区域[69]。许多工作概述了可视化序列比对的好处[9,23,60,95]。然而,文本对齐场景不同于生物信息学中的序列对齐;因此,算法和可视化手段各不相同。
文本对齐的第一个场景是指文本批评中的校对任务,旨在调查文本不同版本之间的文本差异[99]。第一次尝试(手动)整理文本是温布尔登的整理方法,使用一根手指同步跟踪两个文本中的行,以检测差异。20世纪40年代末,查尔顿·希曼发明了一种光学拼贴器,它使用闪光灯和镜子来检测两份文件之间的差异[98]。随着计算机和数字化文本的出现,这一过程变得更加容易,自1970年以来,为此目的开发了许多算法。Needleman-Wunsch算法[71]是使用动态规划技术对齐序列以找到最佳匹配的首批算法之一。然而,Dekker指出,将此类标准序列比对方法应用于排序任务会带来与(1)交换文本片段、所谓的换位、(2)字序独立性以及(3)灵活匹配标记的必要性相关的技术和方法问题
第二种情况涉及在文本集合中发现和分析重复使用的文本段落[42]。这种对文本内容的口头或书面复制称为文本重用[29]。有意的文本重复使用以直接引用和短语的形式出现,如带翅膀的单词和智慧的谚语。在这种情况下,文本对齐的一个突出应用是剽窃检测[45],对于这一应用,将含有未确认、重复使用段落的文本与参考文档数据库进行比较。文本重复使用也可能是无意的,例如样板文件、电子邮件标题、新闻机构文本的重复、习语的使用、战斗口号等。与第一种情况相比,在分析文本集合之前,不知道是否存在不同版本的文本片段。算法是为克服检测释义、跨语言文本重复使用或剽窃思想的挑战而定制的。
基于文本对齐场景的第三种场景是翻译对齐,这是机器翻译系统中的一项基本任务[27]。文本片段在单词、句子或段落级别与其翻译对齐。这种算法产生翻译对列表,可以在未来的机器或人工翻译中重复使用,或者创建动态词典和翻译记忆。首先,对齐挑战与不同语言的词汇表有关。这不仅包括难以对齐的形态或句法现象[61],还包括相关句子有时仅传达相同含义的总体目标
尽管为这三种场景开发解决方案的驱动力不同,但发现和分析文本对齐的方法论方法部分重叠。文本对齐可视化在所有场景中都是不可或缺的,因为目标用户通常具有人文、社会和政治科学等非技术领域的背景,能够理解自动生成的模式。我们回顾了40个支持文本对齐分析的可视化界面,旨在(1)讨论七种最先进的文本对齐可视化策略,(2)强调跨多个学科的一致性,以及(3)揭示当前解决方案的冗余性。从大量相关作品中,我们提炼出设计含义,以指导文本对齐可视化的未来发展,以及与支持不足的研究任务相关的开放挑战。
二、调研范围
对齐的基本形式是查找两个数据对象之间的对应关系的过程,可视化支持对齐模式的分析。数据片段的对齐是几个领域中的一个基本应用,对齐模式的方法取决于正在处理的数据。在生物信息学中,生物序列被对齐以检测序列之间功能、结构或进化关系的相同位置[69]。该领域的许多工具都支持对齐序列的可视化分析。1尽管序列可以用文本表示,但它们并不是指我们的调查重点关注的文本写作结果。当电影的视频帧与书面文本(例如字幕)对齐时,两种不同的数据类型对齐[22,79]。音频-文本对齐已被用于解决许多问题,例如为资源有限的自动语音识别系统创建训练数据[14]。文本和图像之间的对齐也是许多研究的主题。Baraldi等人[18]开发了一种半监督方法,用于将注释文本与照明手稿中的微型插图对齐。Zinger等人[104]一直致力于文本图像对齐,将手写行中的单词图像与其文本转录对齐。但是,对齐不仅仅限于文本数据格式。在音乐中,校准算法被定制为执行音频到乐谱校准,将音乐表演的音频片段与其符号表示联系起来[70]。为了分析体育数据,已经开发了一些方法,以对齐和可视化使用不同传感器收集的跟踪数据[52],或与其他数据类型(如人工定义的事件数据)进行的跟踪数据。
所有这些应用程序都具有相同的原理。要比较的数据对象被分割成更小的单元。如果它们以不同的格式表示,它们将转换为中间格式;之后,将使用带有评分函数的算法(通常为动态规划算法)查找并对齐相关单元。我们对文本对齐的调查包括处理文本源(作品)对齐和对齐文本片段可视化的相关工作。该范围定义不包括文本派生词的对齐,如主题[10]或注释[31,49]。原始文本片段的对齐对视觉表示提出了重大挑战,因为需要保留文本的书写顺序。
调查方法
在给定的调查范围内,我们搜索相关工具和出版物。由于我们自己是这一领域的积极研究者[54-56、58、101-103],我们手头已经有了一套合适的相关工作。我们还参考了TextVis浏览器[62]来扩展我们的收藏。我们进一步使用谷歌学者浏览可视化、数字人文和计算语言学期刊和论文集,使用相关关键词,如“对齐可视化”或“排序可视化”,这进一步增加了参考文献的数量。我们分别审查了每篇论文的相关工作章节,追踪了每一篇引用的参考文献,并检查其是否符合我们的调查范围。此外,我们使用标准的谷歌搜索来查找应用可视化手段的相关翻译工具。我们调查的最终结果见表1。
调查的结构
首先,我们在第3节中概述了需要进行文本对齐可视化的三个目标区域。下面是对文本对齐过程的一般描述,包括第4节中的数据和任务抽象。然后,我们讨论了我们根据应用技术分类的相关可视化,以强调第5节中文本对齐场景和底层任务的相关性。最后,我们将讨论文本对齐可视化的设计方面,从中我们将在第6节中得出相关的未来挑战。
三、文本对齐应用
以下小节提供了文本对齐场景的全面概述,以支持文本批评、文本重用检测与分析以及翻译对齐中的排序任务。我们提供了与校准任务相关的学术领域的详细信息。为了勾勒出三种文本对齐场景之间的关联性以及差异,我们以莎士比亚的《哈姆雷特》为重点解释对齐任务(见图1)。
3.1校勘
考据学是一门人文学科,研究文本是如何被创造、传播和传播的。在文本批评过程的末尾,传统上是文学(或非文学)作品的批评版,它根据文本变体重建文本的原始版本。然而,大量数字文本变体的可访问性加快了文本变体的定量比较分析。