社科基金立项公示文件中,立项项目分重点、一般、青年、西部四个类别,分别在四个不同PDF的文件里。
本文是在下载这四个PDF文件后,利用PYTHON将其转化为EXCEL文件,便于统计。
一、分析数据
立项类别是在文件标题里,用重点、一般等区分。
公示内容都是序号、涉及学科、课题名称、申请人、责任单位五个内容。
二、转换任务
1、将PDF表格,转换为excel表格,不同类别用不同表格记载
2、为了区分类别,在原来5列内容的基础上,增加一列’类别‘用来区分类别
3、原来的PDF每页都有表头,在excle文件里只保留一个表头
三、转换
利用 pdfplumber 读取pdf文件,利用openpyxl 写入excel表格