Python_读取PDF文件文本内容

最新推荐文章于 2024-06-03 18:16:38 发布

学无止境还得学

最新推荐文章于 2024-06-03 18:16:38 发布

阅读量771

点赞数 1

分类专栏： python 爬虫

本文链接：https://blog.csdn.net/caohailan666/article/details/114322372

版权

python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

爬虫

3 篇文章 0 订阅

订阅专栏

经常爬虫的小伙伴，或遇到一些PDF文件的处理，可能我们要下载这个文件，并要识别里面的文本内容，今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字；话不多说，直接上代码

from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter


def parser_pdf_file(pdf_file_path):
    read_pdf = open(pdf_file_path, 'rb')  # 打开PDF文件。
    parser_pdf = PDFParser(read_pdf)  # 用文件对象创建一个PDF文档分析器。
    pdf_document = PDFDocument(parser_pdf)  # 创建一个PDF文档。

    parser_pdf.set_document(pdf_document)
    pdf_document.set_parser(parser_pdf)  # 连接分析器 与文档对象。
    pdf_document.initialize()  # 如果没有密码，就创建一个空的字符串。

    if not pdf_document.is_extractable:  # 检测文档是否提供txt转换，不提供就忽略。
        raise PDFTextExtractionNotAllowed
    else:
        pdf_manager = PDFResourceManager()  # 创建PDF资源管理器 来管理共享资源。
        pdf_laparams = LAParams()  # 创建一个PDF参数分析器。
        pdf_device = PDFPageAggregator(pdf_manager, laparams=pdf_laparams)  # 创建一个聚合器
        pdf_interpreter = PDFPageInterpreter(pdf_manager, pdf_device)  # 创建一个PDF页面解释器对象
        # 循环遍历列表，每次处理一页的内容，pdf_document.get_pages()获取page列表
        for each_page in pdf_document.get_pages():
            pdf_interpreter.process_page(each_page)  # 使用页面解释器来读取
            layout = pdf_device.get_result()  # 这里layout是一个LTPage对象 里面存放着这个page解析出的各种对象 一般包括LTTexBox,LTFigure,LTImage,
            # LTTexBoxHorizontal等等 想要获取文本就获得对象的text属性。
            # print(layout)
            for each_info in layout:
                if isinstance(each_info, LTTextBoxHorizontal):
                    results = each_info.get_text()
                    print(results)


if __name__ == '__main__':
    # pdf_file_path = get_pdf_file()
    parser_pdf_file(r'D:\6.pdf')

具体每个代表什么意思，有什么不懂的地方可以留言评论，我看到后会第一时间给大家回复的。

学无止境还得学

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
Python_读取PDF文件文本内容

经常爬虫的小伙伴，或遇到一些PDF文件的处理，可能我们要下载这个文件，并要识别里面的文本内容，今天小汪就在这里给大家分享一下怎么识别pdf文件里面的文字；话不多说，直接上代码from pdfminer.converter import PDFPageAggregatorfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.layout import LTTextBoxHorizontal, LAParamsfr.
复制链接

扫一扫

专栏目录