Python3实现读取pdf文件

最新推荐文章于 2024-03-14 13:24:14 发布

鹿鸣松

最新推荐文章于 2024-03-14 13:24:14 发布

阅读量534

点赞数

分类专栏： Python 数据分析文章标签： python

本文链接：https://blog.csdn.net/qq_37985803/article/details/119222872

版权

Python 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

数据分析

3 篇文章 1 订阅

订阅专栏

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser
from io import StringIO

def read_pdf(file_path):
    output_string=StringIO()
    with open(file_path,'rb') as f:
        parser=PDFParser(f)
        doc=PDFDocument(parser)
        rm=PDFResourceManager()
        device= TextConverter(rm,output_string,laparams=LAParams())
        interpreter=PDFPageInterpreter(rm,device)
        for page in PDFPage.create_pages(doc):
            interpreter.process_page(page)
    return output_string.getvalue()

优惠劵

鹿鸣松

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python3实现读取pdf文件

from pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.pdfpage import PDFPagefrom pdfminer.pdfpars.
复制链接

扫一扫