如果你有从PDF中批量提取表格的需求,那么这篇文章就是你的福音。
Python 第三方模块 Camelot 能够精准识别PDF中的表格信息,并提取为pandas数据结构,而且还能导出为多种格式:JSON,Excel,HTML和Sqlite。
下面给大家介绍这个模块的使用方法:
1.准备开始之前,你要确保Python和pip已经成功安装在电脑上,
请选择以下任一种方式输入命令安装依赖:
1. Windows 环境 打开 Cmd (开始-运行-CMD)。
2. MacOS 环境 打开 Terminal (command+空格输入Terminal)。
3. 如果你用的是 VSCode编辑器 或 Pycharm,可以直接使用界面下方的Terminal.
pip install camelot-py[cv]
2.使用
最简单的使用方式如下:
import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite
第一行,导入了camelot这个模块。
第二行,以stream的模式读取当前目录的foo.pdf文件。
第三行,将所有表格数据导出为 foo.csv 文件,并保存在当