Learning to Predict Charges for Criminal Cases with Legal Basis
Title:Learning to Predict Charges for Criminal Cases with Legal Basis
Author:Bingfeng Luo, Yansong Feng, Jianbo Xu, Xiang Zhang and Dongyan Zhao Institute of Computer Science and Technology, Peking University, China Beijing Institute of Big Data Research, China
Motivation
对于一个给定的案件,为其预测合适的罪名(charges),将为法律辅助系统提供了极大的帮助。自动罪名预测系统通过分析案件的文本事实描述来确定合适的罪名。例如:诈骗罪、盗窃罪或故意杀人罪。用户可以用自己的语言来描述相关案件或者发现类似的案例和可能的刑罚。对于非法律专业的人员,可以帮助他们了解相关案件的法律依据。另外,相关的法律条款(law articles)除了提供法律依据外,还可以明显改善罪名预测的结果。因此该种模型可有效预测不同描述风格的案件的罪名结果。
Data Preparation
中国政府自2013年在China Judgements Online发布裁决文书。
在此网站上随机选择50000个文档用于训练模型,5000作为验证集,5000作为测试集。为了保证每个罪名都有足够的训练数据,仅选择charges频数大于80的罪名,其他的charges将其看成negative data。使用《中华人民共和国刑法》中的法律条款。
数据集:50个不同的罪名,321个不同的罪名,每篇事实描述平均有383个单词,每个案例3.81个法律条款,3.56%的案例有多个罪名。
Model
The following steps:
一:输入案件事实描述给document encoder生成fact embedding df,其中ufw和ufs分别是单词层面和句子层面上的向量,用于选择相关信息的单词和句子。
二:事实描述通过article extractor 选择top k个相关的法律条款。
三:这些法律条款通过另一个document extractor 进行嵌入,之后传递给article aggregator选择最支持案件的条款生成article embedding da,df生成的三个文本向量即uaw,uas,uad,用于在document encoder和article aggrector中产生attention values。
四:连接df和da,通过softmax分类器预测案件的罪名。
Document Encoder
The following steps:
一:使用sentence-level aequence encode对每个句子进行embed。
二:使用document-level aequence encoder对上一步骤嵌入的向量进行聚合生成document embedding d。
Bi-GRU Sequence Encoder
使用门机制(gating mechanism)编码每个元素的上下文,跟踪sequence的状态。Bi-GRU首先使用一个前向和一个反向GRU,用两个相反的方向编码sequence,之后连接两个GRU的状态形成自己的状态。
给定序列[x1,x2,x3,......,xT],其中xt是输入元素t的embedding,Bi-GRU在位置t的状态:
其中hft和hbt是forward和backward GRU在位置t上的状态。最终的sequence embedding不是串联hft和hbt,就是使用ht的均值。
Attentive Sequence Encoder
使用一个上下文向量来聚合元素,当使用extra guidance时,允许动态生成context vector。
通过使用该序列编码器进行fact embedding,fact-side sttention模块实际上包含两个组件,即单词和句子级别。分别使用ufw和ufs作为他们的全体上下文向量。
法条生成:首先构建一个快速易扩展的分类器来过滤掉很多不相关的法律条款。其次,用神经网络来全面理解top k 条款,进一步使用article-side attention模块来选择最支持罪名预测的法条。
Top k Article Extractor
将相关法条提取视为多个二分类问题,对每个法条建立一个二分类器,关注其与案件的相关性,建立了321个分类器,扩展只需添加更多分类器即可。
用word-based SVM作为二分类器,使用bag-of-words TF-IDF作为特征,使用chi-square作为特征选择,使用linear kernel作为二分类器。
Article Enconder
根据对应的fact embedding df为每个案件动态生成其单词级别文本向量uaw和句子级别文本向量uas
Attentive Article Aggregator
从提取的top k articles中找到用于罪名预测的支持性法条,并相应地生成aggregated article embedding。其生成的attention values可以看作每个法条与案件的相关性,可以用来对top k articles进行排名和过滤,结果可以显示给用户作为罪名预测的依据。
以上就是案件描述和法条提取的模型描述。
最后模型的输出将document embedding df和aggregated article embedding da串联,之后输入到两个FC层生成向量d’,之后通过一个softmax分类器生成预测的罪名分布。
Experiments
罪名预测结果
法条提取结果:
模型在新闻报道上的实验结果
Conclusions
作者提出基于注意力的神经网络框架,可以完成罪名预测和相关法条提取的任务。通过在中国刑事案件的处理结果表明了模型在罪名预测和相关法条提取上表现良好,也表明在民法体系中法条对于司法决策的重要性。除了判决文书外,模型在由非法律专业人员撰写的文档中也有明显效果。另外,模型暂时无法解决多被告的案件,这仍是未来研究的挑战之一。