Python 超强大的PDF表格提取器 — Camelot

天天开心学编程

已于 2022-03-30 14:10:31 修改

阅读量3.6k

点赞数 3

文章标签： python

于 2022-03-30 14:08:03 首次发布

本文链接：https://blog.csdn.net/m0_64355682/article/details/123844767

版权

本文介绍了Python库Camelot用于精准识别并提取PDF中的表格，将其转换为pandas数据结构，支持JSON、Excel、HTML和Sqlite等格式导出。通过简单步骤配置和进阶技巧，如处理背景线和指定表格区域，实现高效操作。

摘要由CSDN通过智能技术生成

如果你有从PDF中批量提取表格的需求，那么这篇文章就是你的福音。

Python 第三方模块 Camelot 能够精准识别PDF中的表格信息，并提取为pandas数据结构，而且还能导出为多种格式：JSON，Excel，HTML和Sqlite。

下面给大家介绍这个模块的使用方法：

1.准备开始之前，你要确保Python和pip已经成功安装在电脑上，

请选择以下任一种方式输入命令安装依赖：
1. Windows 环境打开 Cmd (开始-运行-CMD)。
2. MacOS 环境打开 Terminal (command+空格输入Terminal)。
3. 如果你用的是 VSCode编辑器或 Pycharm，可以直接使用界面下方的Terminal.

pip install camelot-py[cv]

2.使用

最简单的使用方式如下：

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，导入了camelot这个模块。

第二行，以stream的模式读取当前目录的foo.pdf文件。

第三行，将所有表格数据导出为 foo.csv 文件，并保存在当