数据整合
1. 背景及前期准备
1.1 背景介绍
在参加比赛过程中,需要获取江苏省科学技术奖近十年的数据,因此需要在官网上获取相应的数据,再查找数据的过程中发现,官网中给出的数据,并不是完整的可以直接拿来用的
比如:
① 2018-2019年的人员及项目名单是pdf的形式给出,
② 2015、2017年的内容直接附在发布的公告后面(纯文字的)
③ 2008-2011、 2014、2016年的内容是以doc的形式给出
④ 2012-2013年的可以找到xls形式数据
因此需要将数据进行整合,数据最后的表现形式就是每一年的数据,都提取整合到Excel表中。
具体要求:
① 将doc、pdf和网页里面的文字数据提取到Excel表格中,表格的名称为:xxx年年度江苏省科学技术奖.xlsx
② 将一、二、三等奖数据分别放置在该表格下的三个sheet中,sheet的名称为:一等奖、二等奖、三等奖
1.2 需要安装的库
这里用到python自带的库:os库(系统文件创建)、re(字符数据匹配)、glob(文件路径选择