太赞了!Pdf转Word,我用Python 轻松搞定表格和水印!

本文介绍了使用Python库提取Pdf中的表格并保存为Excel,以及添加和去除图片水印的方法。通过pdfplumber提取表格,PyPDF2和fitz库处理水印,实现对Pdf文档的高效编辑。
摘要由CSDN通过智能技术生成


继上一次为大家推出了将pdf转word之后(卧槽!Pdf转Word用Python轻松搞定!),引起了大家的热烈讨论,我也总结了大家的一些意见和建议,今天就进一步的为大家推出一个新的版本。

从pdf中提取表格数据,并保存到本地的excel文件当中,并且还为大家加入了添加水印和去除水印的功能。虽然在去除水印的效果上可能不如付费的项目那么好,但是也足够大家在日常生活中进行使用,下面我们就一起来看看吧。

01.如何提取表格

首先要面临的第一问题就是如何提取pdf中的表格,如下图所示:

我们需要将上述的表格进行提取,并保存到本地的excel文件之中,程序如下所示:

上述程序中,我们利用pdfplumber库来打开一个pdf文件ÿ

Python中,将PDF文件换为包含表格、图像和文字的Word文档,可以结合多种库如`tabula-py`(处理PDF表格)、`PIL`(处理图像)和`python-docx`(生成Word文档)。以下是基本流程: 1. **处理PDF表格**: - 使用`tabula-py`库,首先安装: ``` pip install tabula-py ``` - 提取PDF中的表格数据: ```python from tabula import read_pdf data = read_pdf('input.pdf', pages='all') df = pd.DataFrame(data[0]) # 假设只有一个表格 ``` 2. **处理图像**: - 使用`PIL`库,先安装: ``` pip install pillow ``` - 保存PDF中的每一页作为图像文件,然后在Word文档中插入: ```python from PIL import Image img = Image.open(BytesIO(pdf.pages[i].extract_image())) # i是页码 img.save('page_' + str(i) + '.jpg') ``` 在Word文档中插入图像,可以创建一个新的段落然后插入图片链接。 3. **处理文字**: - 将PDF中的文本内容提取出来: ```python text = pdf.pages[0].extract_text() # 获取第一页文本 ``` 4. **合并元素到Word文档**: - 使用`python-docx`库创建Word文档,将以上数据结构化地添加进去: ```python from docx import Document, InlineImage doc = Document() for page, img_name in zip(text.split('\n\n'), ['page_{}.jpg'.format(i) for i in range(1, len(imgs)+1)]): paragraph = doc.add_paragraph(page) img = InlineImage(doc, img_name) paragraph.add_run().insert_picture(img) # 插入图片 doc.save('output.docx') ``` 请注意,这只是一个基础示例,实际换可能会更复杂,特别是如果PDF有复杂的页面结构。同时,换后的Word文档可能无法完美保留PDF的所有细节,特别是关于排版和格式的部分。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值