何海波:以数据推动法治(附PPT、视频)

清华大学法学院教授何海波在‘清华RONG系列论坛之司法大数据专场’演讲,阐述了数据如何推动法治,特别是通过裁判文书网的公开,展现了大数据在司法管理、法学研究和法制建设中的巨大影响。他强调了数据公开的重要性,同时指出存在的问题,如文书关联性不足、敏感信息处理不规范,并提出了进一步推动裁判文书公开和利用的建议。
摘要由CSDN通过智能技术生成

640?wx_fmt=png&wxfrom=5&wx_lazy=1


2018年3月23日,清华校内举办了“清华RONG系列论坛之司法大数据专场”活动,清华大学法学院教授何海波发表“以数据推动法治”的主题演讲,为大家介绍了他本人针对智慧司法所做的研究。何教授呼吁社会各界能够同心推动数据开放、数据融合,发挥数据的价值,为人民造福。


公众号对话框回复关键词“司法”,获取完整PPT。


640?wx_fmt=png&wxfrom=5&wx_lazy=1

清华大学法学院教授何海波


讲座内容经数据派整理如下:


640?wx_fmt=png


一、中国裁判文书网


640?wx_fmt=png


2014年,最高法院建立了全国统一的裁判文书公开平台,把各地法院制作的判决书、裁定书都统一上传到中国裁判文书网。截止目前,已经积累了4337万裁判文书。通常一份裁判文书有几页纸,长的有几十页,四千多万裁判文书包含了巨大的信息,是一座信息的金矿。


二、最高法院大力推进文书公开


能走到今天这一步,得益于最高法院特别是周强院长的大力推动。从2010年至今,最高法院连发了三个版本的裁判文书上网规定,不久前又发布了审判流程信息公开。


640?wx_fmt=png


第一,在公开范围上,原来规定主要是判决书公开,现在法院对外发布的裁判文书原则上都公开,甚至一些中间文书也公开。这是一个巨大的进步。


第二,在公开机制上,最早的规定是公开裁判文书要请法院主管领导签字再上传。因为这样很麻烦,公开的积极性不高,所以公开的成效不显著。后来,规则改为凡是不公开的裁判文书,需要主办法官说明理由,并由法院的主管领导签字。这下子,数量迅速上升。


三、文书上网数量迅猛增长


2000年,我是北大读研究生的时候,在《法制日报》上发表过一篇文章,就叫“判决书上网”。我设想全国法院的裁判文书都上传到一个统一的网站,让大家都能查阅。当时,我自己都觉得这是很浪漫的想象,没想到今天它在很大程度上已经实现了。


今天,这个裁判文书的数据库已经是世界上最庞大的法律文书数据库,今后还会越来越大。当然,这里边有我们的制度优势。我们最高法院一声令下,全国就可以干起来。美国的最高法院就没有这样的权力;即使国会有这样的权力,最多也只能管联邦系统的,管不了州法院。这体现了我们的制度优势,当然也得益于决策者的魄力和雄心。


昨天,我检索了一下,裁判文书网上历年的裁判文书数量从2001年开始计算(几乎可以忽略不计),到13年、14年迅猛增长。17年做出来的裁判文书数量已经很大,每天以几万的数量在增长,每年以上千万的数量在增长,今后每年可能达到几千万的数量。如下图所示:


640?wx_fmt=png


裁判文书的公开对司法管理、对法学研究、对法制建设,都带来了巨大的影响。


四、统计方式的改进


原来法院系统想搞一点数据,最高法院制发一个统计样表,地方法院层层填报。你如果看法院的统计表,一张统计表几千个数据,背后不知道要多少人工。


现在,从理论上来讲,这些数据都可以在法院的数据库里自动生成,而且还有一个好处:更迅速。如果等一层一层上报,即使几个单项的统计数据也得一个星期,而现在几分钟就能生成。这在过去完全无法想象。而且,统计的项目,几千个都算少的。理论上讲,你要几万个、几十万个都能够做到。


640?wx_fmt=png


如上图所示,我用最高法院统计公布的数据,画了一个历年行政诉讼的走势,这背后不知道有多少人工的付出。今后,至少在理论上,我们可以用几个小时、甚至几分钟的时间来实现这种统计的结果。


五、评估司法改革的绩效


640?wx_fmt=png


这种研究还可以用来评估法律运转的方式,以及司法改革的绩效。我们都知道,法律怎么规定是一回事,实际怎么样则是另一回事。怎么样才能知道法律的实际运转呢?统计分析是一个路子。


这方面有不少学者做了一些研究。比如,统计离婚案子,到底离婚的多少是有小孩的,平均结婚多少年,是男方提出多还是女方孩提出多。你根据一个或者几个法院的文书做统计,是不够的;统计样本太大,囿于人力的限制,又很困难。我有同事找了一帮学生,统计了八千多份案件,那已经是人力的极限了。现在,我们完全可以实现对几百万、几千万的裁判书进行统计分析。


我和我的同事、学生不久前做了一个小项目,来评估司法改革的一项内容,就是人民陪审员制度。中国坐在法庭上审案子的,除了法官,还有一种人叫“人民陪审员”。理论上讲,他们是普通的老百姓。最近中央有一个要求,随机抽取老百姓担任陪审员,随机指定陪审员参与案子审理。能做到吗?


我对裁判文书分析以后发现,并没有做到。在有些法院,一个陪审员一年能审几百个案子。图中右边列的,都是三年里边审过上千个案子的陪审员。这还只是根据公布的裁判文书所做的统计,他们实际上审理的案子数量应当是翻倍的。一个陪审员审理的案子居然比法官还多,这肯定不是随机挑选、随机参与的——他们是“职业陪审员”


不管出于什么原因,我们陪审制度改革的初衷显然没有实现。这使我们反省,我们原来的目标设定是否可行,是否需要调整。这样一种数据统计,对我们改革决策是有意义的。


我曾经参与一些司法改革的讨论,深深感觉我们这些坐在书斋里的学者对现实太无知。有了这些数据支撑以后,以后局面也许稍微改观一些,不再凭经验、拍脑袋说话。


六、增强可预见性,实现同案同判


裁判文书公开还有更多的意义。我们对海量的裁判文书进行分析以后,能够得出一个结论,“实际的法律到底是什么?”当一个案子到了法院,能事先预测法官将会怎么判案;用同样方法也可以评价,过去某一个案子的判法是不是偏离常轨,甚至有点离奇。在法治社会,同类的案子做到同样的判决,是基本要求。


面对海量的裁判文书,怎么知道是否同类同判?


我们原来的办法是用关键词搜索,比如杀人罪,判断什么情况该判死刑,什么情况不该判死刑。这种方法的缺点是,必须找到一个关键词;如果不能确定有效的关键词,就没法甄别是否是同类案件。


举个例子,我在公交车上丢了一个手机,有人捡走不还我,他是不是构成盗窃罪或者什么罪?如果用“公交车”“手机”这样的关键词去检索,你肯定检索不到几个,因为计算机识别不了你真正的意思。别人在公交车上丢的可能不是手机,而是一个提包;也可能不是落在公交车上,而是落在出租车上或者地铁里头。法律说的是,我在公共交通工具上丢失了一件财物,人家拾到不还,是不是构成盗窃罪?


640?wx_fmt=png


我跟清华大学计算机的博士生合作,试图利用自然语言识别技术来确定同类案子。我们用的是最高法院的一个指导性案例,看这个案例在法院后来的裁判里是否得到遵循。我们把这个案例要旨的原文输进去,让计算机进行无监督的学习,计算机给了我们一堆它认为属于同类案例的案例。我们抽样检验后告诉它,它的判断哪些对了、哪些错了,让它再学习。


我们这个课题只做到一半,现在还没有结果。人工智能刚刚蹒跚起步,但前景远大,最终将帮助我们实现“同案同判”这一久远的梦想。就像AlphaGo以几千万棋谱为根据,法律的人工智能技术必须以海量裁判文书的公开为前提


七、存在的问题


640?wx_fmt=png


裁判文书公开尽管取得了过去难以想象的巨大进步,但是它改进的空间仍然是非常大。


首先,还有许多应当公开的裁判文书没有公开。这里既有技术原因,也有制度原因。如果我们把裁判文书公开作为法官结案的程序之一,那肯定做到该上传的都上传。现在没有这样的要求。


其次,文书的关联性还有待改进。现在都是按照文书来上传,相互没有建立关联。一个案子除了一审可能还有二审、再审,诉讼过程中还有不少文书。怎么样能把这些文书关联起来,让我们知道这都是一个案子的裁判文书?现在还没有解决这个问题。


再次,文书中敏感信息的处理不规范。公开裁判文书,不是把百分之百的文书公开,也不一定把一份文书的内容百分之百的公开。如果涉及到敏感信息,比如离婚案子,以前有的公开,现在几乎都不公开了。还有一些应当公开的裁判文书包含敏感信息,比如身份证号码、住址的门牌号,这些敏感信息是不公开的。


现在网上公开有两个相反的情况。有一些是应当做隐蔽处理的没有隐蔽,把人家的隐私公开了。还有的是过分的隐蔽,把何海波写成了“何某某”,他住在“北京市海淀区”这些信息也都去掉了。这对文书的利用带来了很大的障碍。比如,我要做一个课题——地方保护,如果把当事人的地址都隐掉了,我就没法判断他跟法院是不是同一个地方,我们的研究就受到很大的影响。


八、对于进一步公开和利用的建议


640?wx_fmt=png


第一,进一步推动裁判文书的上传工作


把法院内部的硬件建设和制度建设同步推进。除了以内部考评促进司法公开,还要引入外部测评机制。


第二,加强法院与数据公司的合作


如果去看法院的裁判文书网,你会看到它写着禁止为了商业目的去复制云云。法院的意思是说,大家都用我的,你们自己不许用。但是,法院实际上又挡不住那么多的数据公司利用爬虫去爬这些数据。这个问题让我反思自己的想法。


我原先认为,裁判文书是公共信息,应当免费提供。我现在认为,对一般的裁判文书网检索,应当是免费的,但是对数据公司的商业使用,可以收一点费用。这样人家也不用爬虫了,能够公开的数据都给你,数据公司之间公开、平等地竞争。


法院的职责主要是汇集裁判文书,提供初步的检索,然后把数据给数据公司,让数据公司进行深加工。法院不必要跟数据公司去竞争,法院做法院的,公司做公司的。不管是在检索能力上,还是界面的友好上,数据公司都可以比法院做得更深入、更漂亮。法院自己去做深度挖掘,很难真正做好。


第三,建立法院和学者、数据公司的全面合作


公开的裁判文书永远只是法院产生和拥有文书的一部分,它有很多局限。当我们想利用全数据进行研究,就会碰到制度性的障碍。法院方面会有很多顾虑:你是什么人?你想干什么?会不会对法院和政府形象造成不利的影响?


顾虑不是没有道理,但开放合作是基本趋势。我们需要建立一个机制,让学者和法院融洽地合作。我相信,如果让学者参与,他们可以做更多更好的数据分析。相对来说,学者们有鲜明、更融贯的问题意识,具体专业的法律知识,还有很重要的一点,他们有更充裕的时间。他们可以花几个月甚至几年时间做一个课题,这是法院的同志做不到的。法院同志能做的,基本上是领导要什么、赶紧给什么。这方面的合作机制目前还相当不够,需要进一步探索。


九、想法


建立法治需要几样东西:第一,需要人,法制靠人来运作;第二,需要制度,需要一套规则;第三,法治也需要数据。数据可以弥补人的缺陷,数据可以帮助规则建立。


司法数据的挖掘提取,为我们中国正在成长的法治提供一个强大的助推力量。如果能够把数据建设搞好,对中国法治的功劳应当是不小的。


谢谢大家!


公众号对话框回复关键词“司法”,获取完整PPT。


RONG系列大数据论坛

RONG系列大数据论坛由数据科学研究院发起。每场论坛针对某一个领域的大数据相关研究方向,联合清华大学相关院系和清数大数据产业联盟的成员共同参与。目前已成功举办“大数据与新闻传播”、“大数据与医疗健康”、“大数据与未来人居”、“大数据与诚信社会”、“大数据重构制造业”、“大数据与政府治理”、“大数据与可持续发展”等专场。

640?wx_fmt=png

640?wx_fmt=jpeg

智慧旅游解决方案利用云计算、物联网和移动互联网技术,通过便携终端设备,实现对旅游资源、经济、活动和旅游者信息的智能感知和发布。这种技术的应用旨在提升游客在旅游各个环节的体验,使他们能够轻松获取信息、规划行程、预订票务和安排食宿。智慧旅游平台为旅游管理部门、企业和游客提供服务,包括政策发布、行政管理、景区安全、游客流量统计分析、投诉反馈等。此外,平台还提供广告促销、库存信息、景点介绍、电子门票、社交互动等功能。 智慧旅游的建设规划得到了国家政策的支持,如《国家中长期科技发展规划纲要》和国务院的《关于加快发展旅游业的意见》,这些政策强调了旅游信息服务平台的建设和信息化服务的重要性。随着技术的成熟和政策环境的优化,智慧旅游的时机已经到来。 智慧旅游平台采用SaaS、PaaS和IaaS等云服务模式,提供简化的软件开发、测试和部署环境,实现资源的按需配置和快速部署。这些服务模式支持旅游企业、消费者和管理部门开发高性能、高可扩展的应用服务。平台还整合了旅游信息资源,提供了丰富的旅游产品创意平台和统一的旅游综合信息库。 智慧旅游融合应用面向游客和景区景点主管机构,提供无线城市门户、智能导游、智能门票及优惠券、景区综合安防、车辆及停车场管理等服务。这些应用通过物联网和云计算技术,实现了旅游服务的智能化、个性化和协同化,提高了旅游服务的自由度和信息共享的动态性。 智慧旅游的发展标志着旅游信息化建设的智能化和应用多样化趋势,多种技术和应用交叉渗透至旅游行业的各个方面,预示着全面的智慧旅游时代已经到来。智慧旅游不仅提升了游客的旅游体验,也为旅游管理和服务提供了高效的技术支持。
智慧旅游解决方案利用云计算、物联网和移动互联网技术,通过便携终端设备,实现对旅游资源、经济、活动和旅游者信息的智能感知和发布。这种技术的应用旨在提升游客在旅游各个环节的体验,使他们能够轻松获取信息、规划行程、预订票务和安排食宿。智慧旅游平台为旅游管理部门、企业和游客提供服务,包括政策发布、行政管理、景区安全、游客流量统计分析、投诉反馈等。此外,平台还提供广告促销、库存信息、景点介绍、电子门票、社交互动等功能。 智慧旅游的建设规划得到了国家政策的支持,如《国家中长期科技发展规划纲要》和国务院的《关于加快发展旅游业的意见》,这些政策强调了旅游信息服务平台的建设和信息化服务的重要性。随着技术的成熟和政策环境的优化,智慧旅游的时机已经到来。 智慧旅游平台采用SaaS、PaaS和IaaS等云服务模式,提供简化的软件开发、测试和部署环境,实现资源的按需配置和快速部署。这些服务模式支持旅游企业、消费者和管理部门开发高性能、高可扩展的应用服务。平台还整合了旅游信息资源,提供了丰富的旅游产品创意平台和统一的旅游综合信息库。 智慧旅游融合应用面向游客和景区景点主管机构,提供无线城市门户、智能导游、智能门票及优惠券、景区综合安防、车辆及停车场管理等服务。这些应用通过物联网和云计算技术,实现了旅游服务的智能化、个性化和协同化,提高了旅游服务的自由度和信息共享的动态性。 智慧旅游的发展标志着旅游信息化建设的智能化和应用多样化趋势,多种技术和应用交叉渗透至旅游行业的各个方面,预示着全面的智慧旅游时代已经到来。智慧旅游不仅提升了游客的旅游体验,也为旅游管理和服务提供了高效的技术支持。
深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值