代码笔记,仅供参考,有错必纠,别买谢谢
限免:6小时
任务
现在要对一堆PDF文档里的数据进行数据提取,规整并整理成一个完整的数据表。
PDF里的数据的格式是这样的(由于数据不可外泄,所以我进行马赛克处理,只保留部分数据):
)
上面显示的表格是我们需要的数据,当然,这个PDF文档中还有很多我们不需要的干扰数据,所以,我用正则表达式去匹配我需要的数据,并添加了一些条件,禁止干扰数据进入我们最后的数据表中。
这些PDF文档的名字很规整,方便我们处理,我们可以利用PDF名称的信息对从提取到的数据进行归类:
)
这些PDF文件里的数据分别在2011年、2013年、2015年、