这是「进击的Coder」的第 793 篇技术分享
作者:Ckend
来源:Python 实用宝典
“
阅读本文大概需要 3 分钟。
”如果你有从 PDF 中批量提取表格的需求,那么这篇文章就是你的福音。
Python 第三方模块 Camelot 能够精准识别 PDF 中的表格信息,并提取为 pandas 数据结构,而且还能导出为多种格式:JSON,Excel,HTML 和 Sqlite。
下面给大家介绍这个模块的使用方法:
1.准备
开始之前,你要确保Python和pip已经成功安装在电脑上。
请选择以下任一种方式输入命令安装依赖:
1. Windows 环境 打开 Cmd (开始-运行 - CMD)。
2. MacOS 环境 打开 Terminal (command + 空格输入 Terminal)。
3. 如果你用的是 VSCode 编辑器或 Pycharm,可以直接使用界面下方的 Terminal.
pip install camelot-py[cv]
2.使用
最简单的使用方式如下:
import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite
第一行,导入了 camelot 这个模块。
第二行,以 stream 的模式读取当前目录的 foo.pdf 文件。
第三行,将所有表格数据导出为 foo.csv 文件,并保存在当前文件夹下。
相当简单,请注意,read_pdf 的 flavor 参数是可选的,如果你不带这个参数,请注意需要安装 ghostscript 这个驱动,因为它默认使用 ghostscript 去用 lattice 模式。
3.进阶
3.1 处理背景线:
可以看到,很多表格的线都隐藏在背景中。这种表格默认是不支持的,这时候我们需要让程序能够自动识别这样的表格:
tables = camelot.read_pdf('background_lines.pdf', process_background=True)
增加 process_background=True 参数即可。
3.2 指定表格区域
某些情况下无法正确识别到 PDF 中的表格,此时手动设定左上角和右下角的边界可能是有效果的:
tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])
其中 table_areas
接受格式为 x1,y1,x2,y2 的字符串,其中(x1,y1) -> 左上角, (x2,y2) -> 右下角。在 PDF 坐标空间中,页面的左下角是原点,坐标为(0,0)。
本文的代码和示例,以及 Camelot 源仓库可在公众号后台回复 camelot 下载。
我们的文章到此就结束啦,我们下期再见,Respect!
End
崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!
内容介绍:《Python3网络爬虫开发实战(第二版)》内容介绍
扫码购买
好文和朋友一起看~