本文或将录入新书Python法律实务(暂用名)当中,任何未经允许转载或“引用”,都不被允许噢~
前面的文章介绍了裁判文书中数据信息的提取,裁判文书目前作为学术研究、案件指引最重要的大数据源,受到了越来越多的重视。在实际工作中,许多律所或者律师,出于学术研究、业务宣传、品牌宣传等目的,会在自己的公号或者私有媒体对一些行业案件进行归纳整理分析。根据这些数据的指引,我们不仅能了解到学习法律知识,同样可以参照来作为案件的办理指引。
接下来,笔者就以帮助专做劳动法的同事陈律师制作某个行业白皮书(餐饮行业的劳动法领域)的过程为例,来做深入的介绍。
实践难度 :高
知识点涉及:正则表达式、python-docx库处理docx文档、pandas库处理excel文档、文件夹的遍历、Pyecharts制作图表
面向对象:掌握了Python初、中级别知识,熟悉了Python上述几个模块的基本使用方法的读者。
第一步 数据准备
由于绝大部分读者,不具备自建裁判文书数据库的能力,所以需要提前到裁判文书、或者类似网站进行检索,将检索到的裁判文书进行批量下载。笔者当然是有自己的数据库的,但是为了演示,这里下载了2019年100多份相关的裁判文书。
第二步 设计编程思路
设计正则表达式,从文书中提取仲裁的请求
遍历所有docx文档,再利用python-docx库遍历文档中的每一段进行正则匹配
将匹配结果导出excel表格中
处理和分析excel表格
将excel表格数据转化为可视化图表
第三步 编程与调试
pattern=".*?申请仲裁.{1,5}[请要]求"
_re =re.compile(pattern,re.M|re.S|re.I)
result=[]
unmatched=[]
files=[]
for parent, dirnames, filenames in os.walk(r'餐饮大数据分析', followlinks=True):
for filename in filenames:
file_path = os.path.join(parent, filename)
if '.docx' in file_path:
_i={'fileName':filename,'filePath':file_path}
files.append(_i)
print(files)
print('files length:',len(files))