Python 超强大的PDF表格提取器 — Camelot

最新推荐文章于 2024-05-24 17:41:56 发布

VIP_CQCRE

最新推荐文章于 2024-05-24 17:41:56 发布

阅读量1k

点赞数

文章标签： python pdf 开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg3MjU3NzU1OA==&mid=2247515004&idx=1&sn=ebb544e4e160b68bf8632abc744d7c0f&chksm=ceefd405f9985d13ff6a78ea1c220a003765819f56884e9911118cee9dca3d0e7eb45f3b8ff4&scene=126&sessionid=0

版权

这是「进击的Coder」的第 793 篇技术分享

作者：Ckend

来源：Python 实用宝典

“

阅读本文大概需要 3 分钟。

”

如果你有从 PDF 中批量提取表格的需求，那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别 PDF 中的表格信息，并提取为 pandas 数据结构，而且还能导出为多种格式：JSON，Excel，HTML 和 Sqlite。

下面给大家介绍这个模块的使用方法：

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上。

请选择以下任一种方式输入命令安装依赖：
1. Windows 环境打开 Cmd (开始-运行 - CMD)。
2. MacOS 环境打开 Terminal (command + 空格输入 Terminal)。
3. 如果你用的是 VSCode 编辑器或 Pycharm，可以直接使用界面下方的 Terminal.

pip install camelot-py[cv]

2.使用

最简单的使用方式如下：

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，导入了 camelot 这个模块。

第二行，以 stream 的模式读取当前目录的 foo.pdf 文件。

第三行，将所有表格数据导出为 foo.csv 文件，并保存在当前文件夹下。

相当简单，请注意，read_pdf 的 flavor 参数是可选的，如果你不带这个参数，请注意需要安装 ghostscript 这个驱动，因为它默认使用 ghostscript 去用 lattice 模式。

3.进阶

3.1 处理背景线：

可以看到，很多表格的线都隐藏在背景中。这种表格默认是不支持的，这时候我们需要让程序能够自动识别这样的表格：

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

增加 process_background=True 参数即可。

3.2 指定表格区域

某些情况下无法正确识别到 PDF 中的表格，此时手动设定左上角和右下角的边界可能是有效果的：

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 接受格式为 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在 PDF 坐标空间中，页面的左下角是原点，坐标为（0，0）。

本文的代码和示例，以及 Camelot 源仓库可在公众号后台回复 camelot 下载。

我们的文章到此就结束啦，我们下期再见，Respect！

End

崔庆才的新书《Python3网络爬虫开发实战（第二版）》已经正式上市了！书中详细介绍了零基础用 Python 开发爬虫的各方面知识，同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容，‍同时本书已经获得 Python 之父 Guido 的推荐，目前本书正在七折促销中！

内容介绍：《Python3网络爬虫开发实战（第二版）》内容介绍

扫码购买

好文和朋友一起看~

VIP_CQCRE

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python 超强大的PDF表格提取器 — Camelot

这是「进击的Coder」的第793篇技术分享作者：Ckend来源：Python 实用宝典“阅读本文大概需要 3 分钟。”如果你有从 PDF 中批量提取表格的需求，那么这篇文章就是你的福音。Python 第三方模块 Camelot 能够精准识别 PDF 中的表格信息，并提取为 pandas 数据结构，而且还能导出为多种格式：JSON，Excel，HTML 和 Sqlite。下面给大家介绍这个...
复制链接

扫一扫