python 提取pdf中表格（单元格）内容

最新推荐文章于 2024-05-24 17:41:56 发布

dandanforgetlove

最新推荐文章于 2024-05-24 17:41:56 发布

阅读量886

点赞数

分类专栏： python 文章标签： python 列表

本文链接：https://blog.csdn.net/dandanforgetlove/article/details/117354756

版权

本文介绍了4种在Python中提取PDF文件中表格内容的方法，包括使用pdfminer.six、tabula和PyPDF2等库。推荐使用PyPDF2，因为它能准确提取每个单元格的内容，且在处理合并单元格时表现更佳。每种方法的安装模块和效果都有所不同，实际操作时可按需求选择。

摘要由CSDN通过智能技术生成

python3.7

要求：提取pdf中表格里面的内容，提取每一个单元格中的内容，并且精确。

尝试了4种，每种都需要安装不同的module。代码不多，效果自己运行下试下吧（内容不便）

非图片型表格！！

推荐最后一种！！！

第一种

pip3 install pdfminer # 20191125

pip3 install pdfminer.six # 20201018

from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams


# 识别第一版


def pdfTotxt(filepath,outpath):
    try:
        fp = open(filepath, 'rb')
        outfp=open(outpath,'w')
        #创建一个PDF资源管理器对象来存储共享资源,caching = False不缓存
        rsrcmgr = PDFResourceManager(caching = False)
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = TextConverter(rsrcmgr, outfp, codec='utf-8', laparams=laparams,imagewriter=None)
        #创建一个PDF解析器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        for page in PDFPage.get_pages(fp, pagenos = set(),maxpages=0,
                                      password='',caching=False, check_extractable=True):
            page.rotate = page.rotate % 360
            interpreter.process_page(page)