格式转换 ▏Python 实现PDF转Excel

最新推荐文章于 2024-06-11 14:20:22 发布

Eiceblue

最新推荐文章于 2024-06-11 14:20:22 发布

阅读量1.2k

点赞数 4

本文链接：https://blog.csdn.net/Eiceblue/article/details/134029906

版权

Python PDF 专栏收录该内容

48 篇文章

订阅专栏

PDF文件是一种静态文档格式，通常难以编辑，而Excel则是一个灵活的表格工具。如果你需要处理PDF表格中的数据，那么将其导出为Excel文件可以大大节省工作时间和精力。Excel提供的强大数据编辑和格式化功能，允许你对转换后的PDF数据进行修改、排序、筛选、计算等操作。同时，你还可以调整单元格大小、更改字体、应用样式等。本文将讨论如何使用Python将PDF表格直接转换为Excel文件。

安装 Python PDF库

要实现转换，首先我们需要先通过以下pip命令将第三方库Spire.PDF for Python安装到程序中。

pip install Spire.PDF

也可以下载 Spire.PDF for Python 解压缩后再进行安装。点击了解详细安装教程：如何在 VS Code 中安装 Spire.PDF for Python

使用Python将PDF转为Excel 文件

Spire.PDF for Python提供的 PdfDocument.SaveToFile() 方法能将PDF文件保存为Excel xlsx格式。在转换过程中，为了控制转换结果的准确性，Spire.PDF for Python提供了 XlsxLineLayoutOptions 类来指定转换选项。该类的构造函数接受以下5个参数:

参数	描述
convertToMultipleSheet (bool)	表示是否将多个 PDF 页面渲染到一个 Excel 工作表中
rotatedText (bool)	表示是否显示旋转的文本
splitCell (bool)	表示一个包含多行文本的 PDF 表格单元格是否会在 Excel 中被拆分成多行
wrapText (bool)	表示是否对 Excel 单元格中的文本进行换行
overlapText (bool)	表示是否显示重叠的文本

PDF转Excel的示例代码如下：

from spire.pdf.common import *
from spire.pdf import *

# 创建PdfDocument对象
pdf = PdfDocument()

# 加载PDF文档
pdf.LoadFromFile("数据.pdf")

# 创建 XlsxLineLayoutOptions 对象来指定转换选项
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)

# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)

# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("Pdf转Excel.xlsx", FileFormat.XLSX)
pdf.Close()

转换结果：