Natural Language Processing (NLP) for Requirements Engineering: A Systematic Mapping Study文章笔记

一、背景

定义：是一个研究和开发领域，旨在将NLP技术、工具和资源应用于各种需求文档或工件，以支持在各个RE阶段执行的一系列语言分析任务。这些任务包括检测语言问题、识别关键领域概念和建立需求之间的可追溯性链接。

本文研究方法：系统图谱研究方法，从文献现状、实证研究现状、研究焦点、实践现状和使用的NLP技术五个方面切入。

研究结果：

(i)NLP4RE是可重构领域中一个活跃的、蓬勃发展的研究领域，已经积累了大量的出版物，并引起了各界的广泛关注;

(ii)大多数NLP4RE研究是仅通过实验室实验或示例应用评估的解决方案建议;

(iii)大多数NLP4RE研究都集中在分析阶段，以检测作为其主要的语言分析任务，而需求说明则是其通常处理的文件类型;

(iv)选定的研究提出了130种新工具，以支持一系列语言分析任务，尽管已公布了一些工业应用，但长期采用的证据很少;

(v)从选定的研究中提取了140种自然语言处理技术(例如，词性标注和标记化)，66种自然语言处理工具(例如，斯坦福CoreNLP和GATE)和25种自然语言处理资源(WordNet和英国国家语料库)，但其中大多数-特别是那些新颖的自然语言处理技术和专门的工具-并不经常使用;

相比之下，常用的NLP技术是句法分析技术、通用工具和通用语言词汇。

结论：目前NLP4RE研究的现状与实践之间存在巨大差异，主要表现在NLP4RE研究的工业验证不足，所提出的工具的工业采用证据很少，缺乏共享的re特定语言资源，以及NLP4RE研究中缺乏NLP专业知识来建议选择NLP技术。

二、正文

1、介绍

自然语言(NL)在需求工程(RE)中的重要作用早已确立，虽然很难证明NL实际上是最好的选择，但多年来的经验证据表明，它至少是工业实践中表达需求的最常用的表示法。

NL与RE之间存在的密切关系是研究人员寻求应用自然语言处理(NLP)技术和工具来处理需求文本的灵感来源。

20世纪80年代初

先驱Chen和Abbott提出使用英语句子的句法特征进行数据库建模和程序设计，主要方法是基于简单语法规则从需求文本中提取相关实体。假设NL需求是用一些受约束的、可预测的格式表示的，但实践表明并不是总是如此。

20世纪90年代初

人们开始认真尝试为RE开发NLP工具，引入技术来解释NL的复杂性和多样性。其中两个著名的NLP工具，findphrases用来识别需求文本中的相关单词和短语，OICSI用来发现需求中的概念和关系，分别使用词汇亲和力和语义用例。

20世纪90年代末到21世纪初

出现了一系列NL工具，AbstFinder、NL- ops、Circe、CM-Builder、QuARS、ARM。这个时期的工具主要用于识别需求中的相关实体，但可能产生某种形式的抽象模型，以及识别需求质量缺陷。

21世纪初

是一个实验新的NLP技术和新思想的时期，出现的新技术（包括但不限于）有：

信息检索(IR)技术用于需求跟踪
词性标注(POS)技术用于标注相关需求句子
统计NLP技术用于从需求文本中识别“浅知识”以及跟踪需求之间的关系

2000年代末以来

NLP4RE已经成为一个成熟的研究领域，吸引了来自更广泛的RE社区的研究人员。此后开发的工具有（包括但不限于）：

用于模糊检测的SREE
用于模型生成的aToucan

2、NLP

定义

一种理论驱动的计算技术，用于在一个或多个语言分析层次上分析和表示自然发生的文本，目的是实现类似人类的语言处理，用于一系列任务或应用。

其中，”语言分析层次“是指语言的语音、形态、词汇、句法、语义、话语和语用分析，其假设是人类通常利用所有这些层次来产生或理解语言，反观NLP系统，它可以支持不同层次或层次的语言分析组合。

现状

NLP系统支持的分析层次越多，这些系统就应该越强大或越有能力。今天，除了在语篇和语用处理方面的一些开创性努力外，最先进的NLP技术只达到了完整英语的词汇和句法处理水平，语义能力有限。

方法

大致可以分为符号NLP和统计NLP。

1、符号NLP

起源于人工智能(AI)。它基于对语言事实和相关算法的明确表示，并利用这些知识对语言现象进行深入分析。

符号NLP方法包括基于逻辑或规则的系统，以及语义网络。

在基于规则的系统中，语言知识被表示为事实或生产规则
在语义网络中，这些知识被表示为相互关联的概念网络。

局限性：

缺乏动态适应新语言现象的灵活性（它们使用手写规则或通过人类分析精心制定的示例构建的显式表示来分析输入文本，这样的规则可能会变得太多而难以管理）。
当出现不熟悉或不符合语法的输入时，符号方法可能是脆弱的。

2、统计NLP

与使用详细手写规则的符号NLP相比，统计NLP使用各种机器学习（ML）方法和大量语言数据（文本语料库）来开发语言的近似概率模型。

这些统计模型简单而稳健，因为它们是基于文本语料库提供的语言现象的实际例子，而不是像符号NLP那样对语言现象进行深入分析。

当使用大量带注释的语言数据进行训练时，统计NLP可以获得很好的结果，因为它可以在丰富的数据中学习到最常见的情况。

此外，数据越丰富，越具有代表性，统计NLP越好。

局限性：

统计NLP也会因不熟悉或错误的输入而退化，与符号NLP类似。
统计NLP主要用于低级NLP任务（许多统计NLP的文本和情感分类器仍然完全基于文本的单词使用来确定文本的含义，而不是使用文本的句子或话语的结构和语义）。
统计NLP对于特定领域的文本(如软件需求)可能不可靠（大多数统计模型都是使用日常使用语言的文本语料库进行训练的）。
相比DL，NLP中使用的传统ML技术在处理原始形式的自然数据方面受到限制（这意味着构建一个统计NLP系统需要仔细的工程和相当多的领域专业知识来设计一个特征提取器，将原始文本转换为合适的内部表示，即特征向量，从中机器学习子系统，可以检测或分类输入中的模式）。

DL对NLP的影响

大约在2012年，深度学习(DL)方法开始出现在NLP场景中。

DL的核心思想

允许向机器提供大量的原始数据，并自动发现检测或分类所需的表示或特征。因此，深度学习只需要很少的手工特征工程。

此外，DL模型学习的特征是高级的，即使在新的、看不见的数据上也可以更好地泛化。

NLP和深度学习专家都预测，深度学习将在未来几年内对NLP产生重大影响。

尽管如此，基于深度学习的自然语言处理的最新趋势表明，耦合符号人工智能将是从自然语言处理到自然语言理解的关键。

3、NLP4RE

定义

是一个研究和开发领域，旨在将NLP技术(技术、工具和资源)应用于各种需求文档或工件，以支持在不同的需求工程阶段执行的一系列语言分析任务。

将NLP4RE建立为一个寻求应用NLP技术的研究和开发领域是NLP4RE的先决条件（因为NLP4RE是由NLP驱动和启用的）。

这个定义有几个关键要素：

NLP技术的三种类型

（1）NLP技术

是执行特定NLP任务(如词性标注、解析或标记)的实用方法、方法、过程或过程。

（2）NLP工具

是支持一种或多种NLP技术的软件系统或软件库，如Stanford CoreNLP7, NLTK8或OpenNLP9。

（3）NLP资源

是支持自然语言处理技术或工具的语言数据资源，可以是语言词典(即字典)或语料库(即文本集合)。

NLP4RE的输入类型

NLP4RE处理各种需求文档或工件，大多数需求文件预计是在NL。这在RE的早期阶段尤其如此，在这个阶段中，需求分析人员可能不得不查阅各种各样的文档，以便更好地理解问题领域。这些文件包括采访脚本、法律文件、标准、操作程序等。最近，人们发现在线产品评论对了解最终用户的需求和愿望很有用。因此，NLP4RE的输入类型广泛而多样。

NLP4RE的目标

虽然NLP努力实现类人语言处理，以实现类人性能，但NLP4RE的目标不那么雄心勃勃，因为它的主要目标是协助需求分析师执行针对不同RE领域或阶段的各种语言分析任务。

这些任务包括：

检测语言问题
识别关键领域概念
建立需求之间的可追溯性链接

NLP4RE工具的目标不是取代人类分析师，而是用那些文书或数据密集型活动来补充他们的工作，在这些活动中，计算机化系统可能比人类更有效。

4、总结

（1）NLP4RE文献的现状

尽管NLP4RE研究的发表时间表明，该研究始于30多年前，但直到最近15年，该领域才发展成为一个活跃和繁荣的领域，产生了88%的已确定研究。这一时期NLP领域的技术进步显然为NLP4RE的快速增长和发展铺平了道路。

在所确定的研究中，大多数是会议和讲习班的论文。这种趋势与其他RE和SE领域的出版模式是一致的，因为RE和ICSE等一些RE和SE会议具有很强的竞争力，可以与顶级期刊相媲美。

这些NLP4RE研究的大量不同的出版场所表明，NLP4RE的核心基础是RE，而强大的受众是SE;它也吸引了来自不同社区的普遍兴趣。然而，虽然NLP4RE是NLP的一个应用领域，但NLP4RE研究很少在NLP场所发表，这表明NLP研究界对NLP4RE工作缺乏认识。

（2）NLP4RE的实证研究现状

虽然在NLP4RE研究报告中发现了不同的研究类型，但解决方案研究是主要的研究类型，有271(67.08%)研究采用了解决方案研究，其次是验证研究(17.33%)。其余的研究类型不太常见:评估研究(7.18%)，哲学与观点(4.70%)和个人经验(3.71%)。这样的趋势也在东南和东南的其他地区被观察到，这在未来可能会重复。

这些不同的研究类型通过不同的评估方法进行评估，研究类型和它们使用的评估方法之间存在明显的一致性。大约65%的解决方案提案研究(271个中的175个)使用实验室实验(LESS或LEHS)进行评估，而大约35%使用示例应用程序。这表明没有一个解决方案建议研究在现实环境中得到评估。因此，缺乏工业案例研究和现场实验是NLP4RE研究的主要挑战。

（3）NLP4RE研究的重点

与此相关的370项NLP4RE研究中，大多数(42.70%)针对的是分析阶段，而只有0.81%针对的是设计阶段。除了这两个阶段，其余研究的分布是管理和启发各占16.76%，建模占16.49%，V&V占4.05%，测试占2.43%。显然，当前的NLP4RE研究是以分析为中心的。

我们的研究结果进一步支持了这一观察，26.22%的研究发现，检测任务是被研究最多的NLP4RE任务，其主要目的是支持需求文档的分析。其余的研究或多或少均匀地分布在分类(19.73%)、提取(17.03%)、建模(15.95%)和追踪与关联(14.32%)这四个任务中。只有6.76%，搜索和检索显然是最少被研究的任务。

正如我们刚才提到的，分析阶段和检测任务之间存在密切的关系。这种关系是由这个阶段的主要问题和这个问题的NLP解决方案形成的。基于这一观察，我们确定了以下两组重构阶段与NLP4RE任务之间的关系：

对于分析阶段，主要问题是发现需求文档中的语言问题。因此，NLP4RE解决这个问题的核心任务是检测。其他任务，如分类、提取、跟踪和关联以及搜索和检索，用于支持检测任务。
对于管理阶段，主要的问题是识别需求之间的可追溯性关系。因此，NLP4RE解决这个问题的核心任务是追踪和关联。其他任务，包括分类、检测、提取、搜索和检索，用于支持跟踪和关联任务。
对于启发阶段，主要的问题是需求概念的提取。因此，NLP4RE解决这个问题的核心任务是提取。其他任务，包括分类、检测、跟踪和关联以及搜索和检索，用于支持此任务。
在建模阶段，主要的问题是需求概念的提取和概念模型的组合。因此，NLP4RE解决这个问题的核心任务是建模。提取任务用于支持建模。

深入了解不同的自然语言处理阶段和NLP4RE任务之间的复杂关系，对于开发合适的NLP工具来支持自然语言处理活动是有价值的。

在考察了NLP4RE研究的阶段和任务之后，我们将注意力转向了这些研究处理的输入文档类型。在确定的14种不同的文件类型中，需求说明书是最常处理的输入文件类型，被239项研究使用(64.59%)。然而，我们注意到，有一些新兴的趋势是使用其他类型的文档作为输入，如用户反馈、用户生成的内容、法律和政策、领域文档和用户故事。处理这些类型的文档可能会给NLP4RE研究人员带来新的挑战，不仅这些文档不符合通常期望的需求规范的语言或结构标准，而且这些文档可能包含不熟悉的词汇和概念。鉴于多年的NLP4RE研究，我们认为现在是研究人员开发更具挑战性的文本并探索未知领域的时候了。

（4）NLP研究的实践现状

在370项报告新结果的研究中，有130种工具，其中建模工具占26.15%，检测工具占23.85%，提取工具占18.46%，分类工具占15.38%，追踪和关联工具占11.54%，搜索和检索工具占4.62%。虽然这些工具的开发时间从1990年延伸到2019年，但大多数工具是在2004年至2019年之间发现的。这些工具的发展遵循了同一时期NLP4RE研究的相同模式。

然而，在这130个工具中，只有15个可以在互联网上找到。仔细观察就会发现，其中一个工具需要访问权限，而另一个则不可访问。这就留下了13个可用性不同程度的工具。此外，除了2005年开发的req明码工具外，其余14个工具都是在2012年之后最近开发的。这意味着15个可用工具中有14个没有经受住时间的考验。如第1节所述，一些公司刚刚开始开发用于可重构的NLP工具。这表明，NLP4RE研究的现状与实践状态之间存在巨大差异。

（5）面向NLP4RE研究的NLP技术

从选定的研究中，共确定了231种不同的NLP技术，其中包括140种NLP技术，66种NLP工具和25种NLP资源。这么大的数字表明NLP是NLP4RE的基础。然而，这些技术并没有充分发挥其潜力，大量的NLP技术被使用了一两次，相当于40%的NLP技术，78.79%的NLP工具和48%的NLP资源。关于这些自然语言处理技术使用的主要发现总结如下：

总的来说，词性标注、斯坦福CoreNLP和WordNet就其类别(即技术、工具和资源)而言是最常用的技术——考虑到这些技术的流行程度，这是可以预料到的。
最常用的NLP技术是在20世纪90年代开发的。这些技术通常支持低级语法分析任务，如POS标记、标记化、解析、停止词删除、术语提取、词干提取和词序化。这可能解释了为什么大多数研究都针对分析阶段，并专注于低水平NLP4RE任务，如检测和提取。
相比之下，大多数长尾NLP技术都是最近才出现的。例如，各种词嵌入技术在2010年左右才出现，特别是谷歌的词向量表示(Word2Vec)是在2013年开发的[85]。鉴于这些技术的新颖性，自然只有少数研究使用了它们。另一方面，对这些新技术的关注有限也可能归因于NLP4RE缺乏NLP专业知识。
通用NLP工具比专用工具更受欢迎。大多数专业工具是标记器，如Genia标记器和CLAWS POS标记器。这清楚地表明，研究人员更喜欢使用通用工具，而不是专门的工具。
与NLP技术和工具的数量相比，NLP4RE研究使用的NLP资源数量较少;经常使用的NLP资源的数量甚至更少，WordNet是唯一的主要资源。此外，除了MODIS和CM-1，其他资源都用于一般的自然语言处理应用，因此显然缺乏RE-specific资源。

5、对研究和实践的启示

（1）对研究的启示

NLP4RE似乎是一个活跃的研究领域，特别是在最近几年，它在顶级RE和SE场所得到了认可。

另一方面，作为NLP4RE技术来源的NLP4RE研究在NLP领域的渗透较少，这就需要RE社区和NLP社区之间更多的协同作用，RE研究人员需要使他们的问题对NLP研究人员更具吸引力。

NLP研究通常侧重于更广泛的语言问题(自动摘要，机器翻译等)，面向领域的泛化，并基于大型数据集。NLP4RE研究通常是特定于上下文的，依赖于领域的，数据集稀缺或有限。挑战NLP研究人员在这些人为环境中提供解决方案可能是一个改善学科交叉受益的机会。

需要将研究结果应用于现实世界的问题:虽然NLP4RE计算了几个解决方案建议，通过实验在实验室中进行评估，但考虑到组织背景的案例研究甚至经验报告形式的贡献更为有限。这表明NLP4RE的研究人员应该向前迈进一步，应用更大的针对现实世界的工业问题，提出了多种已在实验室验证的解决方案。
需要确定更多NLP4RE任务:NLP4RE研究人员已经寻求解决与一系列NLP4RE任务相关的NL问题，包括检测、提取、建模、分类、跟踪和关联以及搜索和检索。由于到目前为止大多数工作都集中在前四个任务上，搜索和检索提供了一个可能进行额外研究的领域。可能还有其他任务没有被这项测绘研究发现，可以在未来的研究中进行调查。
需要分析更广泛的可再生能源相关文档:其他研究领域来自可用于评估的文档类型:用户故事、用例、领域文档、访谈脚本和模型在研究中仍然处于边缘地位，但它们在实践中发挥着主要作用。此外，尽管最近的研究对用户反馈、法律文件和用户故事等人工制品给予了相关的关注，但该领域仍有待进一步调查。
需要更多公开可用的NLP4RE工具来进行研究验证:研究人员应该解决大多数开发的工具缺乏公开可用性的问题。一方面，共享数据很重要，另一方面，使工具公开可用也非常重要，特别是在数据通常是机密的环境中，如RE。这可以帮助其他研究人员在同行的工作基础上进行构建，也可以促进与行业的技术转移，因为公司通常希望看到一个工作工具，以确信合作的可行性，例如使工具适应公司环境。
需要开发与RE相关的语言资源:本测绘研究表明，NLP4RE研究主要利用词汇资源如WordNet和vernet，而对肢体资源的使用仍然很少。我们认为主要原因是缺乏RE特定的语料库，因为目前只有少数RE或SE特定的数据集可用，包括MODIS和CM-1。使用英国国家语料库和维基百科语料库等通用语料库来训练ML算法来处理需求文本将导致不可靠的结果。用于可再生能源的基于语料库的NLP(或统计NLP)的成功将取决于大型、带注释的需求语料库的可用性。为了帮助评估研究成果，我们还需要其他类型的语言资源，包括共享数据集、基准数据和性能指标。
需要将NLP素养引入到可再生能源教育和培训中:第5.5节中确定的顶级NLP技术可能对可再生能源教育和培训的教师有用，以便他们将教学重点放在NLP4RE中占主导地位的特定技术、工具和资源上。相反，“长尾”中的技术可以给研究人员一个应该考虑的最新技术(例如，Word Embedding, Bag-of-Frames, Doc2Vec)的指示，因为它们可能尚未在NLP4RE研究中得到充分利用。这项图谱研究发现，NLP技术的进步对NLP4RE研究的进展有直接的影响。因此，NLP4RE研究人员应该沉浸在新的NLP技术的学习中。

（2）对实践的启示

需要与行业合作进行研究验证:成熟的软件技术应该在实际应用或工业项目中进行评估，以评估其可扩展性、实用性和可用性。由于工业环境中的案例研究作为评估方法仍然有限，从业者应该敞开大门，评估研究人员提供的不同NLP4RE解决方案，因为大多数可再生能源阶段都包含在一些拟议的解决方案中。特别是，从业者可以利用面向分析阶段的解决方案以及检测和分类的任务。此外，从业者可以主要为他们的软件需求规范利用解决方案，因为这是当前研究中主要考虑的工件类型。
将研究成果转移到工业实践:NLP4RE研究已经产生了大量的工具，尽管大多属于建模范畴。实践者会发现图10中的树状图对于探索哪些工具是根据他们的特定需求开发的(就任务和RE阶段而言)特别有用。不幸的是，从业者必须联系工具作者访问大多数工具，因为只有少数工具是公开可用的。然而，这也是一个机会，因为通用的、与上下文无关的工具可能需要适应特定的公司环境，而通用的、可自由访问的工具可能无法开箱即用，从而导致公司放弃不适合其需求的工具。
将技术知识转移到工业实践:顶级NLP技术，包括技术，工具和资源，对于希望利用现有平台(Stanford CoreNLP, GATE, NLTK, Open NLP)开发内部NLP4RE工具的从业者来说，可能特别有用。顶级技术、工具和资源确定了实践NLP4RE所需的基本的、公认的元素。同样有趣的是，了解了最常用的32种NLP技术(词性标注、解析等)，我们就能解决所有NLP4RE任务。这为从业人员提供了开发NLP4RE工具所需知识的清晰指示，并且可以用于确定招聘可能致力于内部开发NLP4RE工具的人员所需的技能。

6、研究的有效性和局限性

对任何类型文献综述有效性的主要威胁是可靠性问题[86]:如果两项不同的研究遵循相同的研究程序，它们会产生相同的结果吗[87]?对于系统文献综述和系统制图研究，从文献的识别到相关论文的选择，再到最后的分析，可靠性的威胁可以体现在整个综述过程中。为了减轻这种对我们的测绘研究有效性的威胁，我们在研究过程的每一步都采取了一些预防措施，如下所述：

文献检索的可靠性:由于资源、时间和搜索引擎的限制，几乎不可能找到NLP4RE上所有相关论文的全部人口。为了确保我们找到尽可能多的相关论文，并尽可能接近实际人群，我们遵循推荐的指南来识别文献，制定搜索条件并执行搜索。然而，我们可能没有找到那些作者可能使用了其他没有包括在我们的搜索条件中的术语的论文，尽管我们已经试图通过初始和有针对性的搜索来缓解这个问题。由于我们的主要搜索阶段依赖于我们选择的图书馆提供的搜索引擎，正如许多其他系统审稿人所报道的那样，搜索引擎的质量可能会影响所确定的初步研究的完整性。
研究选择的可靠性:为了确保我们的研究选择尽可能准确，尽可能不受研究者偏见和人为错误的影响，我们遵循严格的研究选择过程，以精心设计的纳入和排除标准为指导，并通过交叉检查和对选择和取消选择的研究的独立检查来强制执行。我们特别注意研究选择的最后两个阶段，以确保数据检查员仔细地交叉检查每一篇被排除和纳入的论文。每当一篇论文的相关性存在双重问题时，我们就会召集导师进行讨论，并在此基础上做出最终决定。为了获得NLP4RE研究更平衡的观点，我们决定排除短论文。这是我们研究的一个局限。尽管如此，我们认为我们确定的研究人群接近实际人群，是NLP4RE研究现状的一个很好的代表性样本。
数据提取和分类的可靠性:为了确保我们准确、一致和统一地提取所需的数据并组织所选的研究，我们采用了一种分面分类方案，其中包含一套全面的预定义类别。然而，对于数据提取来说，分类方案并不是万无一失的，因为这个过程涉及到研究人员的主观解释和决定。缺乏关于所报告的研究的设计和执行的足够细节，往往阻碍了数据的提取。从研究中确定确切的自然语言处理技术所产生的一个特殊问题是，在报告的研究中缺乏对这些技术的精确、明确和标准的描述。例如，当一项研究声明它使用一种简单的语法技术来分析文档时，它可能意味着仅使用POS标记或同时使用POS标记和解析。更糟糕的是，一些研究表明，他们执行了一个标记化任务，但没有说哪些NLP工具被用来执行这个任务。为了缓解这个问题，我们编写了自己的内部NLP词典，其中列出了NLP技术，NLP工具和NLP资源。然后使用该词典来指导我们从选定的研究中提取NLP技术。对所选研究的各个方面(如研究类型、评估方法、RE阶段、NLP4RE任务)进行分类的过程也涉及研究人员的主观决定。为了尽量减少人为错误，我们对每个类别都进行了定期检查。每当有双倍关于对特定研究的分类，我们将重新评估该研究，重新提取数据，并在必要时重新分类数据。数据合成、分析和可视化的可靠性:为了确保制图结果尽可能准确无误，我们对提取的数据进行了专题合成、描述性分析和频率计数。主题综合包括规范自然语言处理技术的名称和建立输入文档的类型。为了综合提取的NLP技术，我们使用我们的NLP词典对NLP技术的名称进行规范化或将相似的技术组合为一个。当我们发现新技术时，我们也把它们添加到我们的字典中。为了合成输入文档，我们依靠我们的知识来识别它们的公共类型。综合的结果被审查了几次，并进行了修订，使它们尽可能准确。