python可视化报表制作教程_Python法律实务——利用批量裁判文书内容制作行业白皮书（也可用于诉讼可视化实践）...-CSDN博客

本文链接：https://blog.csdn.net/weixin_34695463/article/details/112223323

本文介绍了如何使用Python从裁判文书中提取数据，并制作行业白皮书，特别是针对劳动法领域的餐饮行业案例。涉及正则表达式、python-docx、pandas和Pyecharts等技术，适合有一定Python基础的读者学习。

摘要由CSDN通过智能技术生成

本文或将录入新书Python法律实务(暂用名)当中，任何未经允许转载或“引用”，都不被允许噢~

前面的文章介绍了裁判文书中数据信息的提取，裁判文书目前作为学术研究、案件指引最重要的大数据源，受到了越来越多的重视。在实际工作中，许多律所或者律师，出于学术研究、业务宣传、品牌宣传等目的，会在自己的公号或者私有媒体对一些行业案件进行归纳整理分析。根据这些数据的指引，我们不仅能了解到学习法律知识，同样可以参照来作为案件的办理指引。

接下来，笔者就以帮助专做劳动法的同事陈律师制作某个行业白皮书(餐饮行业的劳动法领域)的过程为例，来做深入的介绍。

实践难度：高
知识点涉及：正则表达式、python-docx库处理docx文档、pandas库处理excel文档、文件夹的遍历、Pyecharts制作图表
面向对象：掌握了Python初、中级别知识，熟悉了Python上述几个模块的基本使用方法的读者。

第一步数据准备

由于绝大部分读者，不具备自建裁判文书数据库的能力，所以需要提前到裁判文书、或者类似网站进行检索，将检索到的裁判文书进行批量下载。笔者当然是有自己的数据库的，但是为了演示，这里下载了2019年100多份相关的裁判文书。

第二步设计编程思路

设计正则表达式，从文书中提取仲裁的请求
遍历所有docx文档，再利用python-docx库遍历文档中的每一段进行正则匹配
将匹配结果导出excel表格中
处理和分析excel表格
将excel表格数据转化为可视化图表

第三步编程与调试

pattern=".*?申请仲裁.{1,5}[请要]求"
_re =re.compile(pattern,re.M|re.S|re.I)
result=[]
unmatched=[]
files=[]
for parent, dirnames, filenames in os.walk(r'餐饮大数据分析', followlinks=True):
 for filename in filenames:
 file_path = os.path.join(parent, filename)
 if '.docx' in file_path:
 _i={'fileName':filename,'filePath':file_path}
 files.append(_i)
print(files)
print('files length:',len(files))