【Paper】Few-Shot Charge Prediction with Discriminative Legal Attributes-CSDN博客

本文链接：https://blog.csdn.net/u012736685/article/details/102841046

传送门：

Abstract

Automatic charge prediction：根据刑事案件(criminal cases )的事实描述预测最终的charges，在法律助理系统中起着至关重要的作用。
存在问题：（1）现有的charge prediction工作可以对那些高频charges充分发挥作用，但尚不能在有限案件下预测出 few-shot charges。（2）存在许多事实描述相当相似的charges pairs。
解决方法：引入了一些charge的区分属性(discriminative attributes)，作为事实描述和charges用之间的内部映射。这些属性为few-shot charges提供额外的信息，及用于区分confusing charges(混淆罪名）的有效标志。更具体地说，提出一个attribute-attentive charge prediction 模型，以同时推断 attributes 和 charges 。
实验结果：在真实数据集上比 state-of-the-art 有显著和持续的提升。具体来讲，本方法在 few-shot 场景中优于其他 baselines 超过 50%。

1 Introduction

目标：训练机器judge，以确定刑事案件中被告的最终charges(指控)（eg: 盗窃、抢劫或违反交通规章罪）。
作用：它是法律判断预测(legal judgment prediction) 的典型子任务，在法律辅助系统中起着重要的作用，可以造福许多实际应用。例如：为法律人士提供方便的参考以提升工作效率；为不熟悉法律术语和复杂程序的普通人提供法律咨询。
现状：大多数工作以文本分类为框架。
- 早期：侧重于从text或case profiles中提取有效特征，但是需要耗费手工设计特征和标准训练数据的人力，且难以扩展到其他场景。
- 近期：应用深度神经网络来建模legal documents，例如：Luo et al. (2017) 提出 attention-based 的神经网络，通过整合相关law articles进行charge prediction。
两个主要挑战：
- Few-Shot Charges：
  - 数据不平衡：在实际中，各种charges的案例数量高度不平衡。根据我们在一个真实数据的统计，最常见的10项 charges (盗窃、故意伤害和交通违章行为) 涵盖78.1%的案件。相反，最低频 50 项charges (倒卖文物，扰乱法院秩序，逃税) 只涵盖不到0.5%的案件，而大多数这些charges只拥有约10个相关案件。
  - 先前的工作通常侧重于这些常见的charges，而忽略 few-shot Charges。虽然深度神经模型促进了基于特征工程的 charge prediction 方法，但由于需要足够的训练数据，它们无法很好地处理 few-shot charges。
  - 如何在 limited cases情况下处理这些 charges 对于建立鲁棒而有效的 charge prediction 系统至关重要。
- Confusing Charges：
  - 存在许多易混淆的 charges pairs，对于每个易混淆的 charges pairs两项 charges 的定义在核实具体行为时才不同，而相应案件下的情况通常相似。
  - ==》如何捕捉区分混淆 charges 的关键因素是 charge prediction 的另一个挑战。
解决方法：
- 引入 charges 具有区分性的 legal attributes (法律属性)，并将这些属性作为fact与charges之间的内部映射。更具体地说，选择 10 个具有代表性的charges属性，包括：暴力、盈利目的、买卖等。之后，我们进行低成本的类别级注释，即对每个charge，标注每个属性的值(包括yes、no 或 not available)，此注释指示属性是否是一个charge的必要条件。
- 结合charges的属性注释，提出了一种多任务学习框架，以同时预测每个案例的属性和charges。 在该模型中，我们使用attribute attention mechanism (属性注意力机制) 来捕捉与特定属性相关的关键事实信息。在那之后，我们将这些 attribute-aware(属性感知)表示与 attribute-free(无属性)事实表示相结合，以预测最终charges。
- 引入 legal attributes 的两个原因：(1) 提供有关如何区分混淆charges的明确知识；(2) 这些属性由所有charges共享，并且知识可以从high-frequency charges 转换为 low-frequency charges。即使对于few-shot charges，也可学习用于预测的有效 attribute-aware 表示。
实验：验证 few-shot 和 confusing charges 的有效性，在三个真实的中国刑事案件数据集实验。实验结果表明本方法在所有数据集和评估指标上可显著并持续优于 state-of-the-art 模型。值得注意的是，我们的模型在 few-shot charges 方面优于其他baselines 50% 以上。
三方面贡献：
1. 第一个关注 charge prediction 中的 few-shot 和 confusing 问题。并首次在 charge prediction 任务中引入 legal attributes。
2. 提出一个新颖的多任务学习框架，共同推断案件的属性和charges。具体来讲，使用 attribute attention mechanism 来学习属性感知(attribute-aware) 的事实表示。
3. 在几个真实数据集上进行有效实验，本方法显著优于其他 baselines 并在 few-shot charges 提升 50%。

2 Related Work

2.1 Zero-Shot Classification

我们的工作与CV中的 Zero-Shot Classification(零样本分类) 有关。

attribute-based 的模型：由于属性可在不同类之间共享并且可以提供中间表示，因此已经提出了许多 attribute-based 的模型。
- Lampert et al. (2014)介绍了direct attribute prediction(DAP) 和 indirect attribute prediction(IAP)，并提出 attribute classifiers，它可以预先训练，在寻找新的合适的类别时不需要重新训练。
- Akata et al. (2013) 提出将基于属性的分类任务转化为 label-embedding 任务。
- Jayaraman and Grauman (2014) 引入随机森林方法，stress the unreliability of attribute prediction for unseen classes(强调看不见类别的属性预测的不可靠性)。他们还将其扩展到few-shot场景。
其他外部信息
- Elhoseiny et al. (2014) 利用类别标签的文字描述在文本特征与视觉特征之间传输知识。
应用：目标识别、行为识别、事件识别

2.2 Charge Prediction

早期阶段：
- 例如：Kort (1957) 使用定量方法(quantitative methods) 通过计算事实元素的数值来预测判决；Nagel (1963) 利用相关分析对重新分配的案例做出预测；Keown (1980) 引入了用于法律预测的数学模型，如线性模型、KNN。
- 评价：这些方法通常是数学或定量的，并且它们仅限于标签很少的小型数据集。
机器学习阶段：视为一个文本分类任务来考虑。
- 一些工作通常侧重于从案例事实中提取特征。Lin et al. (2012)获取 21 个legal factor labels (法律因素标签) 用于案件分类。Mackaay and Robillard (1974) 提取
- 评价：这些方法只提取浅层文本特征或手工标签，难以扩展到较大的数据集上；此外，不能捕捉类似犯罪之间的 subtle difference(微妙区别)，因此，当类别数量增加、出现更多类似的犯罪时，它们的表现就不好了。
神经网络阶段：Luo et al. (2017) 提出一个 hierarchical attentional network (分层注意力网络) 同时预测 charges 并提取相关 articles。然而，该方法仅关注高频charges，而没有关注 few-shot and confusing ones.
==》解决方法：提出一个基于注意力的神经网络模型，通过引入干具有区分性的法律属性。

3 Method

本文提出 few-shot 神经网络模型，使用一个统一的框架对charge prediction任务和 legal attribute prediction任务同时建模。

3.1 Discriminative Charge Attributes

为了区分易混淆的 charges 并为 few-shot charges 提供额外信息，针对中国刑法中的所有charges，我们引入 10 个具有区分性的属性，图表1所示。对于每个 (charge, attribute) pair，它会标记为 Yes、No 或 NA。

例如：过失杀人(manslaughter)罪名在故意犯罪(Intentional Crime) 属性上标记为 No，在死亡(Death)上为 Yes，在国家机关(State Organ)上为NA。注意：具体案件的事实调查结果只能标记为 Yes 或 No。

判定某人犯有某种罪行时，事实应符合对特定指控的描述。因此，对于特定属性，特定案件的标签和相应charge的标签应相同或不冲突。换句话说，对于某个属性，案件和charge的标签只能是 (Yes, Yes), (No, No), (Yes, NA) 或 (No, NA)。

实现：我们进行低成本注释，并手动注释 149 种不同charges的属性。然后，我们为每个案件分配其相应charge的相同属性。

3.2 Formalizations

3.2.1 Charge Prediction

一个案件的事实描述可当作一个单词序列(word sequence) $\mathbf{x}=\{x_1,x_2,...,x_n\}$ ，其中 $n$ 表示序列长度， $x_i\in{T}$ ， $T$ 是a fixed vocabulary(固定词汇表)。给定事实描述 $\mathbf{x}$ ， charge prediction任务是预测一个 charge $y\in{Y}$ ，其中 ${Y}$ 是一个charge集合。

3.2.2 Attributes Prediction

attributes prediction任务可视为一个二分类任务。输入与charge prediction任务一样都是事实描述 $\mathbf{x}$ ，其目标是根据事实预测属性的 fact-findings $\mathbf{p}=\{p_1,p_2,...,p_k\}$ 。其中， $k$ 是所选择属性的数量， $p_i\in{\{0,1\}}$ 是一个确定属性的标签。

3.3 Fact Encoder

在这里插入图片描述
如图2所示，fact encoder 将离散输入序列编码为连续隐藏状态。由于可以提取语义含义，采用 LSTM 作为 fact encoder。LSTM是RNN的一个变体，它可以捕捉长期依赖关系。

首先，LSTM 编码器将每个单词 $x_i\in{\mathbf{x}}$ 转换为其word embedding ${\mathbf{x}_i}\in{\mathbb{R}^d}$ ，其中 $d$ 是 word embedding 的维度。
之后，所得到的相关 word embedding 序列作为 $\hat\mathbf{x}=\{\mathbf{x}_1,\mathbf{x}_2,...,\mathbf{x}_n\}$ 。在每个时间 step $t\in{[1,n]}$ ，LSTM cell 输入 $\mathbf{x}_t$ ，重新计算 memory cell $\mathbf{c}_t$ ，输出 new hidden state $\mathbf{h}_t$ 如下：
$\begin{aligned} \mathbf{f}_t &= \sigma{(W_f\mathbf{x}_t+\mathbf{U}_{f}\mathbf{h}_{t-1}+\mathbf{b}_{f})}, \\ \mathbf{i}_{t} &= \sigma{(W_i\mathbf{x}_t+\mathbf{U}_{i}\mathbf{h}_{t-1}+\mathbf{b}_{i})}, \\ \mathbf{o}_{t} &= \sigma{(W_o\mathbf{x}_t+\mathbf{U}_{o}\mathbf{h}_{t-1}+\mathbf{b}_{o})}, \\ \hat\mathbf{c}_{t} &= \tanh{(W_c\mathbf{x}_t+\mathbf{U}_{c}\mathbf{h}_{t-1}+\mathbf{b}_{c})}, \\ \mathbf{c}_{t} &= \mathbf{f}_{t}\odot \mathbf{c}_{t-1}+\mathbf{i}_{t}\odot \hat\mathbf{c}_{t}, \\ \mathbf{h}_{t} &= \mathbf{o}_{t} \odot \tanh(\mathbf{c}_t) \tag{1} \end{aligned}$
其中， $\mathbf{f}_t, \mathbf{i}_t \text{ and } \mathbf{o}_t$ 分别表示 forget gate、input gate 和 output gate。 $\odot$ 表示按元素乘法， $\sigma$ 表示 sigmoid 激活函数。 $\text{ and } b$ 分别是权重矩阵和偏置向量。处理完所有时间 steps 后，我们得到一个hidden state序列 $\mathbf{h}=\{\mathbf{h}_1,\mathbf{h}_2,...,\mathbf{h}_n\}$ 。
最后，将其输入一个max-pooling层来获得无属性(attribute-free) 表示 $\mathbf{e}=[e_1,...,e_s]$ ：
$e_i=\max(\mathbf{h}_{1,i},...,\mathbf{h}_{n,i}), \forall{i}\in{[1,s]}\tag{2}$
其中， $s$ 表示 hidden states 的维数。

3.4 Attentive Attribute Predictor

给定事实描述 $\mathbf{x}$ ，attribute predictor 要预测每个属性的标签。受(Yang et al., 2016)启发，使用一个 attention mechanism 从事实中选择相关信息并生成 attribute-aware(属性感知) 事实表示。

如图2所示，attribute predictor 使用 hidden states 序列 $\mathbf{h}=\{\mathbf{h}_1,\mathbf{h}_2,..,\mathbf{h}_n\}$ 作为输入。之后 attribute predictor 对所有属性计算注意力权重 $\mathbf{a}=\{\mathbf{a}_1,\mathbf{a}_2,..,\mathbf{a}_k\}$ ，其中 $\mathbf{a}_i=\{\mathbf{a}_{i,1},\mathbf{a}_{i,2},..,\mathbf{a}_{i,n}\}. \forall{i}\in{[1,k] \text{ and } j\in{[1,n]}, a_{i,j}}$ 计算公式如下：
$a_{i,j}=\frac{\exp(\tanh(\mathbf{W}^a\mathbf{h}_j)^T\mathbf{u}_i)}{\sum_t{\exp(\tanh(\mathbf{W}^a\mathbf{h}_t)^T\mathbf{u}_i)}}\tag{3}$
其中， $\mathbf{u}_i$ 表示第 $i$ 个属性的上下文向量，用于计算一个元素对属性 $i$ 的 informative(提供有用信息)， $\mathbf{W}^a$ 表示所有属性共享的权重矩阵。之后，我们获得事实 $\mathbf{g}=\{\mathbf{g}_1,...,\mathbf{g}_k\}$ 属性感知(attribute-aware) 表示，and $\mathbf{g}_i=\sum_t{a_{i,t}\mathbf{h}_t}$ 。最后，使用表示 $g$ 将其投影到标签空间中，并使用softmax函数来获取最后的预测结果 $\mathbf{p}=[p_1,p_2,...,p_k]$ ，其中 $p_i$ 是属性 $i$ 的预测结果，其计算方法如下：
$\begin{aligned} \mathbf{z}_i&=softmax(\mathbf{W}_i^p\mathbf{g}_i+\mathbf{b}_i^p) \\ p_i&=arg \max(\mathbf{z}_i) \end{aligned}\tag{4}$
其中， $\mathbf{z}_i$ 表示 Yes and No 上的预测概率分布。 $\mathbf{W}_i^p \text{ and }\mathbf{b}_i$ 是属性 $i$ 的权值矩阵和偏移向量。

3.5 Output Layer

为了整合事实描述和所有属性的 fact-findings，我们使用无属性(attribute-free) 和属性感知(attribute-aware) 表示来预测输出层案件最终预测的charge。所有 charges 的预测分布 $y$ 计算如下：
$\begin{aligned} \mathbf{r}&=\frac{\sum_i\mathbf{g}_i}{k}, \\ \mathbf{v}&=\mathbf{e}\oplus\mathbf{r}, \\ y&=\text{softmax}(\mathbf{W}^y\mathbf{v}+\mathbf{b}^y). \end{aligned}\tag{5}$
其中， $\mathbf{r}$ 表示属性感知表示的均值。 $\mathbf{r}$ 与 $\mathbf{e}$ 串联形成最终的事实表示 $\mathbf{v}$ 。 $\mathbf{W}^y \text{ and }\mathbf{b}^y$ 是输出层的权值矩阵和偏移向量。

3.6 Optimization

本模型的训练目标函数由两部分组成。

charge损失：最小化预测charge分布 $y$ 与 ground-truth 分布 $\hat{y}$ 之间的交叉熵。 charge预测损失函数如下所示：
$\mathcal{L}_{charge}=-\sum_{i=1}^Cy_i·\log{\hat{y}_i}\tag{6}$
其中， $y_i$ 表示ground-truth标签， $\hat{y}_i$ 表示预测概率， $C$ 表示charges的数量。
属性损失：最小化每一个属性的预测分布与ground-truth fact-founding 之间的交叉熵。 由于每个属性在模型中都同等重要，所以可将所有属性的交叉熵相加来计算属性损失。但是，当具体charge的属性为 NA 时，相应案件的标签可以为 Yes 或 No。因此，仅当 charge 的属性是 Yes 或 No 时，才将交叉熵加到属性损失上。最后，属性损失表示如下：
$\mathcal{L}_{attr}=-\sum_{i=1}^kI_i\sum_{j=1}^2z_{ij}·\log(\hat{z}_{ij}),\tag{7}$
其中， $I_i$ 表示一个指示函数。若当前charge的第 $i$ 个属性标记为 Yes 或 No，则 $I_i=1$ ，否则 $I_i=0$ 。显然， $z_i$ 表示ground-truth 标签， $\hat{z}_i$ 表示在 Yes 或 No 上的预测概率分布。

最终的损失函数 $\mathcal{L}$ 是通过 $\mathcal{L}_{charge}$ 加 $\mathcal{L}_{attr}$ 实现的：
$\mathcal{L}=\mathcal{L}_{charge}+\alpha·\mathcal{L}_{attr}\tag{8}$
其中， $\alpha$ 是一个超参数，用于平衡损失函数中两个部分的权重。

4 Experiments

4.1 Dataset Construction

数据获取：由于以前 works 中没有公开可用的数据集来进行 charge 预测，我们从中国裁判文书网(China Judgments Online)收集中国政府公布的刑事案件。由于每个案件具有 well-structured，可以分为事实(fact)、法院观点(court view) 和处罚结果(penalty result)等几个部分，我们选择每个案件的事实部分作为输入。此外，我们可以通过正则表达式轻松地从惩罚结果中提取 charge。我们已手动检查了提取的 charge，几乎没有错误。

数据过滤：一些真实的案件包含多个被告和多项charges，由于其过于复杂，所以我们删除了判决中包含一项以上charges的案件。此外，为了检查我们的方法在 few-shot charges 中的性能，我们保留了 149 个不同的 charges (比 (Luo et al., 2017) 高出3倍)，少有10个案例。

预处理：随机选择约40万个案件并构建三个不同规模的数据集，定义为 Criminal-S(small), Criminal-M(medium) 和 Criminal-L(large)。这三个不同的数据集包含相同数量的 charges，但案件数量却不同。详细统计信息如表2所示。
在这里插入图片描述

4.2 Attribute Selection and Annotation

如前一部分所述，我们提出引入鉴别性属性来增强charge预测能力。为了选择这些属性，

首先，训练一个基于 LSTM 的charge预测模型并获得验证集上预测charges的混淆矩阵。
然后，筛选出令人困惑的charge对，并将其提供给三名犯罪专业的硕士生。
最后，根据这些混乱的charge对，他们定义了10个代表性属性来区分这些混乱的charge对。

使用选定的10个属性，我们对所有charges进行低成本注释。具体来讲，只需要手动为 149 个charges (而不是所有案件) 的 10 个属性进行标注。由于选择的属性具有区分性和明确性，我们要求这些注释者为每个注释达成协议。总共，我们花了不到10个小时进行注释。

4.3 Baselines

baselines：包括典型的文本分类模型和一个charge预测模型。

TFIDF+SVM：TFIDF用于特征提取，SVM用于分类。
CNN：使用 multiple filter widths 的CNN作为文本分类器。
LSTM：一个两层的LSTM和一个max-pooling作为事实encoder。
Fact-Law Attention Model：Luo et al. (2017)提出一个基于注意力的 charge 预测模型，通过整合相关 law articles。

4.4 Experiment Settings and Evaluation Metrics

所有案件文件：中文且没有进行分词。
分词：THULAC (Sun et al., 2016)
最大文本长度(maximum document length)：500

模型设置：

TFIDF+SVM：feature size 为 2000；
其他神经网络模型：使用 Skip-Gram model (Mikolov et al., 2013)预训练词向量，且embedding size为100。
- LSTM 的 hidden state size：100
- CNN 的 filter widths：(2, 3, 4, 5) 且每个过滤器尺寸都设置为25以保持一致性。
属性损失的 $\alpha$ 权重：1
注意：串联后，模型的特征大小将变为 200。为公平比较，在 CNN 和 LSTM 的池化层之后，添加一个 100 × 200 FC layer，被定义为 CNN-200 和 LSTM-200。
优化器(optimizer)：Adam (Kingma and Ba, 2015)
学习率(learning rate)：0.001
Dropout：0.5
batch size：64
评价指标：accuracy (Acc.), macro-precision (MP), macro-recall (MR) and macro-F1

4.5 Results and Analysis

在这里插入图片描述

本模型显著且始终优于所有基线。现有方法在 macro-F1 上表现不佳，这表明缺乏预测 few-shot charges 的能力。相反地，本模型有所提升，证明了我们的模型的鲁棒性和有效性。

在这里插入图片描述

进一步验证 few-shot charges 上的性能，我们显示不同频率的charges的性能，如图4所示。我们根据频率将 charges 分为三个parts，即小于10个案例的 charges 为 low-frequency，高于100个案例的 charges 为 high-frequency。
我们的模型实现了比 baseline 在 low-frequency charges 50%以上的提升，证明本方法在处理 few-shot 问题上的有效性。

4.6 Ablation Test

我们的方法的特点是将注意力机制(attention mechanism)和属性感知(attribute-aware)表示相结合。因此，分别设计 ablation test(消融试验) 来研究这些模块的有效性。

当不使用注意力机制：对于每个属性，用一个FC layer 代替 attention mechanism。
当不使用属性感知表示(即，不串联平均属性感知表示形式)：将模型分解为一个基于LSTM的多任务学习，用于 charge 和属性预测。

在这里插入图片描述

在移除注意力层或连接层之后，性能明显下跌。macro-F1 最少减少4%。
==》注意力机制和属性感知表示在模型中扮演不可替代的角色。

4.7 Case Study

在本部分中，利用一个代表性的案件，以直观地说明预测属性如何帮助提高charge预测的性能。在本案中，被告被判犯有intentional injury(故意伤害罪)。通常很难判断案件是 affray(滋事罪(打架斗殴类)) 还是intentional injury(故意伤害)，因为它们都与暴力有关。两者的一个重要区别是intentional injury具有physical injury(身体伤害)的特征，而affray则没有。

在这里插入图片描述
所以，我们认为，身体伤害的属性是本案的charge预测中必不可少的。如图6所示，本方法正确地预测身体伤害的标签为 Yes，从而将charge预测为故意伤害。相反，LSTM-200模型预测不正确，其预测为 affray。此外，在预测属性故意伤害时，我们直观地看到此案例的热图。背景颜色较深的单词具有较高的关注度。从下图中，我们观察到注意机制可以捕获与当前属性相关的关键 patterns and semantics。
在这里插入图片描述