何海波：以数据推动法治（附PPT、视频）

最新推荐文章于 2024-06-05 17:12:02 发布

「已注销」

最新推荐文章于 2024-06-05 17:12:02 发布

阅读量699

点赞数

本文链接：https://blog.csdn.net/enohtzvqijxo00atz3y8/article/details/80222806

版权

清华大学法学院教授何海波在‘清华RONG系列论坛之司法大数据专场’演讲，阐述了数据如何推动法治，特别是通过裁判文书网的公开，展现了大数据在司法管理、法学研究和法制建设中的巨大影响。他强调了数据公开的重要性，同时指出存在的问题，如文书关联性不足、敏感信息处理不规范，并提出了进一步推动裁判文书公开和利用的建议。

摘要由CSDN通过智能技术生成

640?wx_fmt=png&wxfrom=5&wx_lazy=1

2018年3月23日，清华校内举办了“清华RONG系列论坛之司法大数据专场”活动，清华大学法学院教授何海波发表“以数据推动法治”的主题演讲，为大家介绍了他本人针对智慧司法所做的研究。何教授呼吁社会各界能够同心推动数据开放、数据融合，发挥数据的价值，为人民造福。

公众号对话框回复关键词“司法”，获取完整PPT。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

清华大学法学院教授何海波

讲座内容经数据派整理如下：

640?wx_fmt=png

一、中国裁判文书网

640?wx_fmt=png

2014年，最高法院建立了全国统一的裁判文书公开平台，把各地法院制作的判决书、裁定书都统一上传到中国裁判文书网。截止目前，已经积累了4337万裁判文书。通常一份裁判文书有几页纸，长的有几十页，四千多万裁判文书包含了巨大的信息，是一座信息的金矿。

二、最高法院大力推进文书公开

能走到今天这一步，得益于最高法院特别是周强院长的大力推动。从2010年至今，最高法院连发了三个版本的裁判文书上网规定，不久前又发布了审判流程信息公开。

640?wx_fmt=png

第一，在公开范围上，原来规定主要是判决书公开，现在法院对外发布的裁判文书原则上都公开，甚至一些中间文书也公开。这是一个巨大的进步。

第二，在公开机制上，最早的规定是公开裁判文书要请法院主管领导签字再上传。因为这样很麻烦，公开的积极性不高，所以公开的成效不显著。后来，规则改为凡是不公开的裁判文书，需要主办法官说明理由，并由法院的主管领导签字。这下子，数量迅速上升。

三、文书上网数量迅猛增长

2000年，我是北大读研究生的时候，在《法制日报》上发表过一篇文章，就叫“判决书上网”。我设想全国法院的裁判文书都上传到一个统一的网站，让大家都能查阅。当时，我自己都觉得这是很浪漫的想象，没想到今天它在很大程度上已经实现了。

今天，这个裁判文书的数据库已经是世界上最庞大的法律文书数据库，今后还会越来越大。当然，这里边有我们的制度优势。我们最高法院一声令下，全国就可以干起来。美国的最高法院就没有这样的权力；即使国会有这样的权力，最多也只能管联邦系统的，管不了州法院。这体现了我们的制度优势，当然也得益于决策者的魄力和雄心。

昨天，我检索了一下，裁判文书网上历年的裁判文书数量从2001年开始计算（几乎可以忽略不计），到13年、14年迅猛增长。17年做出来的裁判文书数量已经很大，每天以几万的数量在增长，每年以上千万的数量在增长，今后每年可能达到几千万的数量。如下图所示：

640?wx_fmt=png

裁判文书的公开对司法管理、对法学研究、对法制建设，都带来了巨大的影响。

四、统计方式的改进

原来法院系统想搞一点数据，最高法院制发一个统计样表，地方法院层层填报。你如果看法院的统计表，一张统计表几千个数据，背后不知道要多少人工。

现在，从理论上来讲，这些数据都可以在法院的数据库里自动生成，而且还有一个好处：更迅速。如果等一层一层上报，即使几个单项的统计数据也得一个星期，而现在几分钟就能生成。这在过去完全无法想象。而且，统计的项目，几千个都算少的。理论上讲，你要几万个、几十万个都能够做到。

640?wx_fmt=png

如上图所示，我用最高法院统计公布的数据，画了一个历年行政诉讼的走势，这背后不知道有多少人工的付出。今后，至少在理论上，我们可以用几个小时、甚至几分钟的时间来实现这种统计的结果。

五、评估司法改革的绩效

640?wx_fmt=png

这种研究还可以用来评估法律运转的方式，以及司法改革的绩效。我们都知道，法律怎么规定是一回事，实际怎么样则是另一回事。怎么样才能知道法律的实际运转呢？统计分析是一个路子。

这方面有不少学者做了一些研究。比如，统计离婚案子，到底离婚的多少是有小孩的，平均结婚多少年，是男方提出多还是女方孩提出多。你根据一个或者几个法院的文书做统计，是不够的；统计样本太大，囿于人力的限制，又很困难。我有同事找了一帮学生，统计了八千多份案件，那已经是人力的极限了。现在，我们完全可以实现对几百万、几千万的裁判书进行统计分析。

我和我的同事、学生不久前做了一个小项目，来评估司法改革的一项内容，就是人民陪审员制度。中国坐在法庭上审案子的，除了法官，还有一种人叫“人民陪审员”。理论上讲，他们是普通的老百姓。最近中央有一个要求，随机抽取老百姓担任陪审员，随机指定陪审员参与案子审理。能做到吗？

我对裁判文书分析以后发现，并没有做到。在有些法院，一个陪审员一年能审几百个案子。图中右边列的，都是三年里边审过上千个案子的陪审员。这还只是根据公布的裁判文书所做的统计，他们实际上审理的案子数量应当是翻倍的。一个陪审员审理的案子居然比法官还多，这肯定不是随机挑选、随机参与的——他们是“职业陪审员”。

不管出于什么原因，我们陪审制度改革的初衷显然没有实现。这使我们反省，我们原来的目标设定是否可行，是否需要调整。这样一种数据统计，对我们改革决策是有意义的。

我曾经参与一些司法改革的讨论，深深感觉我们这些坐在书斋里的学者对现实太无知。有了这些数据支撑以后，以后局面也许稍微改观一些，不再凭经验、拍脑袋说话。

六、增强可预见性，实现同案同判

裁判文书公开还有更多的意义。我们对海量的裁判文书进行分析以后，能够得出一个结论，“实际的法律到底是什么？”当一个案子到了法院，能事先预测法官将会怎么判案；用同样方法也可以评价，过去某一个案子的判法是不是偏离常轨，甚至有点离奇。在法治社会，同类的案子做到同样的判决，是基本要求。

面对海量的裁判文书，怎么知道是否同类同判？

我们原来的办法是用关键词搜索，比如杀人罪，判断什么情况该判死刑，什么情况不该判死刑。这种方法的缺点是，必须找到一个关键词；如果不能确定有效的关键词，就没法甄别是否是同类案件。

举个例子，我在公交车上丢了一个手机，有人捡走不还我，他是不是构成盗窃罪或者什么罪？如果用“公交车”“手机”这样的关键词去检索，你肯定检索不到几个，因为计算机识别不了你真正的意思。别人在公交车上丢的可能不是手机，而是一个提包；也可能不是落在公交车上，而是落在出租车上或者地铁里头。法律说的是，我在公共交通工具上丢失了一件财物，人家拾到不还，是不是构成盗窃罪？

640?wx_fmt=png

我跟清华大学计算机的博士生合作，试图利用自然语言识别技术来确定同类案子。我们用的是最高法院的一个指导性案例，看这个案例在法院后来的裁判里是否得到遵循。我们把这个案例要旨的原文输进去，让计算机进行无监督的学习，计算机给了我们一堆它认为属于同类案例的案例。我们抽样检验后告诉它，它的判断哪些对了、哪些错了，让它再学习。

我们这个课题只做到一半，现在还没有结果。人工智能刚刚蹒跚起步，但前景远大，最终将帮助我们实现“同案同判”这一久远的梦想。就像AlphaGo以几千万棋谱为根据，法律的人工智能技术必须以海量裁判文书的公开为前提。

七、存在的问题

640?wx_fmt=png

裁判文书公开尽管取得了过去难以想象的巨大进步，但是它改进的空间仍然是非常大。

首先，还有许多应当公开的裁判文书没有公开。这里既有技术原因，也有制度原因。如果我们把裁判文书公开作为法官结案的程序之一，那肯定做到该上传的都上传。现在没有这样的要求。

其次，文书的关联性还有待改进。现在都是按照文书来上传，相互没有建立关联。一个案子除了一审可能还有二审、再审，诉讼过程中还有不少文书。怎么样能把这些文书关联起来，让我们知道这都是一个案子的裁判文书？现在还没有解决这个问题。

再次，文书中敏感信息的处理不规范。公开裁判文书，不是把百分之百的文书公开，也不一定把一份文书的内容百分之百的公开。如果涉及到敏感信息，比如离婚案子，以前有的公开，现在几乎都不公开了。还有一些应当公开的裁判文书包含敏感信息，比如身份证号码、住址的门牌号，这些敏感信息是不公开的。

现在网上公开有两个相反的情况。有一些是应当做隐蔽处理的没有隐蔽，把人家的隐私公开了。还有的是过分的隐蔽，把何海波写成了“何某某”，他住在“北京市海淀区”这些信息也都去掉了。这对文书的利用带来了很大的障碍。比如，我要做一个课题——地方保护，如果把当事人的地址都隐掉了，我就没法判断他跟法院是不是同一个地方，我们的研究就受到很大的影响。

八、对于进一步公开和利用的建议

640?wx_fmt=png

第一，进一步推动裁判文书的上传工作

把法院内部的硬件建设和制度建设同步推进。除了以内部考评促进司法公开，还要引入外部测评机制。

第二，加强法院与数据公司的合作

如果去看法院的裁判文书网，你会看到它写着禁止为了商业目的去复制云云。法院的意思是说，大家都用我的，你们自己不许用。但是，法院实际上又挡不住那么多的数据公司利用爬虫去爬这些数据。这个问题让我反思自己的想法。

我原先认为，裁判文书是公共信息，应当免费提供。我现在认为，对一般的裁判文书网检索，应当是免费的，但是对数据公司的商业使用，可以收一点费用。这样人家也不用爬虫了，能够公开的数据都给你，数据公司之间公开、平等地竞争。

法院的职责主要是汇集裁判文书，提供初步的检索，然后把数据给数据公司，让数据公司进行深加工。法院不必要跟数据公司去竞争，法院做法院的，公司做公司的。不管是在检索能力上，还是界面的友好上，数据公司都可以比法院做得更深入、更漂亮。法院自己去做深度挖掘，很难真正做好。

第三，建立法院和学者、数据公司的全面合作

公开的裁判文书永远只是法院产生和拥有文书的一部分，它有很多局限。当我们想利用全数据进行研究，就会碰到制度性的障碍。法院方面会有很多顾虑：你是什么人？你想干什么？会不会对法院和政府形象造成不利的影响？

顾虑不是没有道理，但开放合作是基本趋势。我们需要建立一个机制，让学者和法院融洽地合作。我相信，如果让学者参与，他们可以做更多更好的数据分析。相对来说，学者们有鲜明、更融贯的问题意识，具体专业的法律知识，还有很重要的一点，他们有更充裕的时间。他们可以花几个月甚至几年时间做一个课题，这是法院的同志做不到的。法院同志能做的，基本上是领导要什么、赶紧给什么。这方面的合作机制目前还相当不够，需要进一步探索。

九、想法

建立法治需要几样东西：第一，需要人，法制靠人来运作；第二，需要制度，需要一套规则；第三，法治也需要数据。数据可以弥补人的缺陷，数据可以帮助规则建立。

司法数据的挖掘提取，为我们中国正在成长的法治提供一个强大的助推力量。如果能够把数据建设搞好，对中国法治的功劳应当是不小的。

谢谢大家！

公众号对话框回复关键词“司法”，获取完整PPT。

RONG系列大数据论坛

RONG系列大数据论坛由数据科学研究院发起。每场论坛针对某一个领域的大数据相关研究方向，联合清华大学相关院系和清数大数据产业联盟的成员共同参与。目前已成功举办“大数据与新闻传播”、“大数据与医疗健康”、“大数据与未来人居”、“大数据与诚信社会”、“大数据重构制造业”、“大数据与政府治理”、“大数据与可持续发展”等专场。

640?wx_fmt=png