【python办公自动化】将Word文本和Pdf表格数据提取并整合到同一个Exeel下的多sheet中

本文介绍了如何使用Python处理Word和Pdf数据,将其整合到Excel的多个工作表中。通过docx和pdfplumber库,提取docx的文本和pdf的表格数据,最终按照年份和奖项类别创建不同工作表。
摘要由CSDN通过智能技术生成

1. 背景及前期准备

1.1 背景介绍

在参加比赛过程中,需要获取江苏省科学技术奖近十年的数据,因此需要在官网上获取相应的数据,再查找数据的过程中发现,官网中给出的数据,并不是完整的可以直接拿来用的

比如:

① 2018-2019年的人员及项目名单是pdf的形式给出,

② 2015、2017年的内容直接附在发布的公告后面(纯文字的)

③ 2008-2011、 2014、2016年的内容是以doc的形式给出

④ 2012-2013年的可以找到xls形式数据

因此需要将数据进行整合,数据最后的表现形式就是每一年的数据,都提取整合到Excel表中。

具体要求:

① 将doc、pdf和网页里面的文字数据提取到Excel表格中,表格的名称为:xxx年年度江苏省科学技术奖.xlsx

② 将一、二、三等奖数据分别放置在该表格下的三个sheet中,sheet的名称为:一等奖、二等奖、三等奖

1.2 需要安装的库

这里用到python自带的库:os库(系统文件创建)、re(字符数据匹配)、glob(文件路径选择࿰

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lys_828

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值