Python之PDF提取表格数据

最新推荐文章于 2024-05-24 17:41:56 发布

2Ker

最新推荐文章于 2024-05-24 17:41:56 发布

阅读量371

点赞数

分类专栏： python 文章标签： python pdf excel

本文链接：https://blog.csdn.net/sinat_14899485/article/details/117347583

版权

本文介绍如何使用Python的camelot库从PDF文件中提取表格数据，并转换为pandas DataFrame，进一步处理后导出为Excel文件。通过glob遍历多份PDF，提取特定列并去重。

摘要由CSDN通过智能技术生成

提取PDF文件中的表格数据是一个很常见的需求，为此我们经常付费，其实实现起来比较容易

这里使用camelot提取数据

import camelot
tables = camelot.read_pdf(pdf_filepath, pages='1-end')
for item in tables:
    df = item.df
    # item.to_csv('test.csv')
    # item.to_excel('test.xlsx')

pages使用’1-end’就可以读取pdf文件所有页
这里将每个表格数据转换为pandas DataFrame(df)
也可以直接导出CSV，Excel文件：to_csv，to_excel

但现实中我们的需求往往更复杂

实例需求：多个pdf文件，每个pdf可能有多页，要求提取指定列的所有数据，并去重，最终导出excel文件

import camelot
import glob
import openpyxl

# 导出excel

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2Ker

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python之PDF提取表格数据

提取PDF文件中的表格数据是一个很常见的需求，为此我们经常付费，其实实现起来比较容易这里使用camelot提取数据import camelottables = camelot.read_pdf(pdf_filepath, pages='1-end')for item in tables: df = item.df # item.to_csv('test.csv') # item.to_excel('test.xlsx')pages使用’1-end’就可以读取pdf文.
复制链接

扫一扫