How Does NLP Benefit Legal System:A Summary of Legal ArtificialIntelligence Intelligence
如何使用NLP技术帮助法律智能:关于法律智能的综述
目录
摘要
法律智能(LegalAI)专注于应用人工智能技术(尤其是自然语言处理)来使法律领域的工作受益。近年来,LegalAI迅速吸引了AI研究人员和法律专业人员的关注,因为LegalAI有利于法律体系将法律专业人员从繁杂的文书工作中解脱出来。法律专业人员经常考虑如何通过基于规则和基于符号的方法解决任务,而NLP研究人员则更多地关注数据驱动和嵌入方法。在本文中,我们描述了LegalAI研究的历史、现状和未来方向。我们从法律专业人员和NLP研究人员的角度说明了任务,并展示了LegalAI中的几种代表性应用。我们进行实验,并对现有作品的优缺点进行深入分析,以探索可能的未来方向。你可以从以下位置找到我们工作的实施https://github.com/thunlp/CLAIM。
1 引言
法律智能(LegalAI)主要致力于应用人工智能技术来协助法律任务。该领域的大多数资源都以文本形式显示,例如判决文件、合同和法律意见。因此,大多数LegalAI任务都基于自然语言处理(NLP)技术。
LegalAI在法律领域起着重要作用,因为它们可以减少法律专业人员的繁重工作。法律领域的许多任务需要法律从业人员的专业知识以及对各种法律文件的透彻理解。检索和理解法律文档需要花费大量时间,即使对于法律专业人员而言也是如此。因此,合格的LegalAI系统应该减少这些繁琐工作的时间消耗,并使法律制度受益。此外,LegalAI还可以为那些不熟悉法律领域的人提供可靠的参考,作为负担得起的法律援助形式。
为了促进LegalAI的发展,在过去的几十年中,许多研究人员付出了巨大的努力。早期作品(Kort, 1957; Ulmer, 1963; Nagel, 1963; Segal, 1984; Gardner, 1984)由于当时的计算限制而总是使用手工制作的规则或特征。近年来,随着深度学习的飞速发展,研究人员开始将深度学习技术应用于LegalAI。已经提出了几个新的LegalAI数据集(Kano et al., 2018; Xiao et al., 2018; Duan et al., 2019; Chalkidis et al., 2019b,a),可以用作该领域研究的基准。基于这些数据集,研究人员开始探索针对各种LegalAI任务的基于NLP的解决方案,例如法律判决预测(Aletras et al., 2016; Luo et al., 2017; Zhong et al., 2018; Chen et al., 2019)、法院视图生成(Ye et al., 2018)、法人实体识别与分类(Cardellino et al., 2017; ANGELIDIS et al., 2018)、法律问答(Monroy et al., 2009; Taniguchi and Kano, 2016; Kim and Goebel, 2017))、法律摘要(Hachey and Grover, 2006; Bhattacharya et al., 2019)。
如前所述,多年来研究人员的努力导致LegalAI取得了巨大进步。总而言之,一些工作集中在基于符号的方法上,该方法将可解释的手工符号应用于法律任务(Ashley, 2017; Surden, 2018)。同时,基于嵌入方法的其他努力旨在设计有效的神经模型以实现更好的性能(Chalkidis and Kampas, 2019)。更具体地说,基于符号的方法更侧重于利用可解释的法律知识对法律文件中的符号进行推理,例如事件和关系。同时,基于嵌入的方法尝试学习潜在特征以从大规模数据进行预测。这两种方法之间的差异在LegalAI的现有作品中引起了一些问题。可解释的符号模型是无效的,而性能更好的嵌入方法往往无法解释,这可能给法律体系带来道德问题,例如性别偏见和种族歧视等。这些缺点使得现有的方法难以适用于现实世界的法律体系。
我们总结了LegalAI中基于嵌入和基于符号的方法的三个主要挑战:(1)知识建模。法律文本已经形式化,在LegalAI中有很多领域知识和概念。如何利用法律知识具有重要意义。 (2)法律推理。尽管NLP中的大多数任务都需要推理,但是LegalAI任务还是有所不同,因为法律推理必须严格遵循法律中明确定义的规则。因此,将预定义规则和AI技术相结合对于法律推理至关重要。此外,复杂的案例场景和复杂的法律规定可能需要更复杂的推理来进行分析。 (3)可解释性。 LegalAI中做出的决定通常应该可以解释为适用于实际的法律体系。否则,公平性可能会受到损害。在LegalAI中,可解释性与性能一样重要。
这项工作的主要贡献归纳如下:(1)我们从NLP研究人员和法律专业人员的角度描述现有作品。此外,我们举例说明了几种基于嵌入和基于符号的方法,并探讨了LegalAI的未来方向。 (2)我们详细描述了三种典型的应用程序,包括判决预测、类案匹配和法律问答,以强调这两种方法对于LegalAI必不可少的原因。 (3)我们在多个数据集上进行了详细的实验,以探索如何利用NLP技术和法律知识来克服LegalAI中的挑战。你可以从github找到实现。 (4)总结LegalAI数据集,可以作为相关任务的基准。这些数据集的详细信息可以从github上找到,其中有几本值得一读的法律论文。
2 基于嵌入的方法
首先,我们在LegalAI中描述基于嵌入的方法,也称为表征学习。基于嵌入的方法强调在嵌入空间中表示法律事实和知识,并且可以将深度学习方法用于相应的任务。
2.1 字符、词、概念嵌入
字符和词嵌入在NLP中起着重要作用,因为它可以将离散文本嵌入到连续向量空间。事实证明,许多嵌入方法都是有效的(Mikolov et al., 2013; Joulin et al., 2016; Pennington et al., 2014; Peters et al., 2018; Yang et al., 2014; Bordes et al., 2013; Lin et al., 2015),它们对于下游任务的有效性至关重要。
在LegalAI中,嵌入方法也很重要,因为它们可以弥合文本和矢量之间的差距。但是,