Legal Judgment Prediction via Topological Learning

Legal Judgment Prediction via Topological Learning

Tiltle:Legal Judgment Prediction via Topological Learning

Author:Haoxi Zhong , Zhipeng Guo , Cunchao Tu, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

Department of Computer Science and Technology State Key Lab on Intelligent Technology and Systems Institute for Artifificial Intelligence, Tsinghua University, Beijing, China

 

Motivation

法律案件预测审判基于案件的事实来预测审判结果,法律审判由多个子任务组成:分别为可用法条、罪名指控、罚金、处罚期限。现有的工作仅仅关注了审判预测中特定的子任务,但是忽略了子任务之间的拓扑依赖关系。本篇论文将子任务之间的依赖视为有向无环图(DAG),并提出一个拓扑的多任务学习框架(TOPJUDGE),该框架将多任务学习和DAG依赖融入到案件预测中。

 

Challenges

Multiple subtasks in legal judgement:

现有工作通常关注审判中的某个特定的子任务,不适用真实场景;虽然,有工作同时预测法条和罪名,但这些模型是为具体的一系列子任务设计的,难以扩展到其他子任务。

Topological dependencies between subtasks:

子任务间存在严格的顺序。具体流程:给定某案件的事实描述,大陆体系的法官首先确定与案件相关的法条,然后根据法条的说明确定指控罪名,基于上述结果,法官进一步确定处罚和罚金。

本文使用一个DAG定义子任务之间的拓扑性的依赖关系,并提出一个统一的逻辑框架TOPJUDGE。具体来说,给定事实描述的编码表示,TOPJUDGE根据拓扑顺序预测所以子任务的输出,并且某个特定子任务的输出会影响其被依赖的子任务。

Model

1、Neural Encoder for Fact Descriptions

我们使用 a fact encoder 来生成 事实描述的向量表示,它作为 TOPJUDGE 的输入。此处使用一个基于 CNN 的 encoder。将单词序列 x作为输入,the CNN encoder 通过三个层(即lookup layer, convolution layer 和 pooling layer) 计算文本表示。

Lookup:将x中的每个单词xi转换成word embedding xi∈Rk,其中k为word embedding的维度。x = {x1, x2, . . . , xn}.

Convolution:卷积操作涉及卷积矩阵,在该矩阵上应用m个filter(其长度为h),以生成feature map,ci = W · xi:i+hh 1 + b,

Pooling:在c的每个维度上应用max pooling,并获得最终的事实表示d=[d1​,d2​,...,dm​],

dt = max(c1,t, . . . , cnn h+1,t), t [1, m].

2、DAG Dependencies of subtasks

3、Judgement predictor over DAG

根据事实表示向量d以及其所依赖任务的判断结果来预测其判断结果yi。

为了预测,对每个子任务使用特定的LSTM cell,并按拓扑顺序获取每个任务的输出,更具体的说,对于每个任务tj,通过三个步骤获取其最终的判决结果,步骤:cell initialization,task-specific representation,prediction。

Cell intialization:

tj的预测结果将以事实表示d和所有依赖任务yk:

Task-specific Representation:

使用LSTM cell处理输入:事实表述d,初始隐藏状态和初始内存单元,将最终隐藏状态hj作为任务tj的特定任务的表示。

Prediction:

在表示hj上使用放射变换,然后应用softmax,之后获得最终预测

Dataset

分别从中国裁判文书网CJO、北大法宝PKU、来自中国裁判文书网的竞赛数据集CAIL。

数据过滤:因为本文关注点是子任务之间的拓扑性依赖的有效性,所以过滤掉存在多个被告和多项指控罪名的案件,对不常见的指控罪名和法律条款的案件进行过滤,只保留频率大于100,将处罚期间离散成非重叠的区间。

对于上面提到的所有数据集,由于文档结构良好并经过人工注释,可以使用正则表达式轻松地从每个文档中提取事实描述、适用的法律条款、收费和惩罚条款。作者手工检查了随机抽样的一组案例,提取错误可以忽略不计。

Baselines

TFIDF+SVM:特征提取 + 文本分类器

CNN:多尺度核来 fact encoding、classification

Hierarchical LSTM (HLSTM):sentence representations、 the representation of complete fact descriptions

Fact-Law Attention Model(2017):使用注意力机制捕捉案件描述和适用的法条之间的交互作用来案件预测的神经网络模型;

Pipeline Model (PM):3 separate CNN classifiers for law articles, charges, and term of penalty,每个子任务的输入为 the concatenation of the fact representation 和 the embeddings for predicted labels of previous subtasks

Experiments

分词:THULAC
预训练词向量:Skip-Gram model,embedding size = 200,frequency threshold = 25.
模型参数:the fact representation and task-specific representation = 256,maximum sentence length=128words,maximum document length=32sentences
超参数:learning rate(Adam)=[Math Processing Error]10^{-3}10−3,dropout=0.5,batch size=128,epochs=16
评价指标:accuracy (Acc.), macro-precision(MP), macro-recall (MR) 和 macro-F1 (F1)

Results

其他实验:不同DAG依赖对结构性能的影响

不同模型对不同案件的预测结果

误差分析:数据的不平衡和不完整会导致模型分析的错误,例如终身监禁和死刑的案件是很少的,模型表现较弱,另外,轻罪的人可以在审判前获得担保,同时支付保证金,但是这些资料不包括在案件说明中,模型在处罚刑期0-6个月的案件表现一般。

Conclusion

这篇工作解决了法案预测的多个子任务之间的拓扑关系问题,使用可扩展的DAG形式对这些子任务之间的显式依赖关系进行建模,并且可以以端到端的方式进行训练。提出了多任务学习来预测法律案件审判LJP,利用子任务之间的相关性,使得法案预测结果明显提升,体现了本方法的有效性和健壮性。未来挑战将会将LJP应用于更多子任务、多场景的案件,并将时间因素纳入考虑。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值