【script】python识别pdf文档

最新推荐文章于 2023-11-01 11:12:07 发布

JohelLiang

最新推荐文章于 2023-11-01 11:12:07 发布

阅读量250

点赞数

分类专栏： python编程文章标签： python识别pdf

本文链接：https://blog.csdn.net/qq_34965596/article/details/103833213

版权

python编程专栏收录该内容

30 篇文章 1 订阅

订阅专栏

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfpage import PDFTextExtractionNotAllowed

def parse(path):
    parser = PDFParser(path)
    document = PDFDocument(parser)

    if not document.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        rsrcmgr = PDFResourceManager()
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        result = ""
        for page in PDFPage.create_pages(document):
            interpreter.process_page(page)
            layout = device.get_result()

            for x in layout:
                if (isinstance(x, LTTextBoxHorizontal)):
                    result += x.get_text()
        return result

def main_pdf(path):
    return parse(open(path, 'rb'))

if __name__ == '__main__':
    print(main_pdf("path.pdf"))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JohelLiang

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【script】python识别pdf文档

from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom p...
复制链接

扫一扫