python解析pdf中的表格

最新推荐文章于 2024-05-02 23:45:44 发布

dailinqing1984

最新推荐文章于 2024-05-02 23:45:44 发布

阅读量508

点赞数

分类专栏： Python 文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/dailinqing1984/article/details/127150724

版权

Python 专栏收录该内容

104 篇文章 64 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

安装pdf相关库：

pip install pdfplumber

pip install  typing-extensions

编写代码

import pdfplumber
import pandas as pd

pdf_file = r'G:\Core_v5.3.pdf'

pdf = pdfplumber.open(pdf_file)

result_df = pd.DataFrame()
for page in pdf.pages[100:200]:
    tables = page.extract_tables()
    if tables:
        for table in tables:
            print('============================================================')
            print(table)
            df_detail = pd.DataFrame(table[1:],columns=table[0])
            # df_detail = pd.DataFrame(table)
            print(df_detail)