python 提取pdf文件中的信息

最新推荐文章于 2024-09-20 20:00:47 发布

慵懒渔夫

最新推荐文章于 2024-09-20 20:00:47 发布

阅读量774

点赞数 2

分类专栏： Python

原文链接：https://blog.csdn.net/huolan__34/article/details/83748701

版权

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

python 提取pdf文件中的信息

原创妖精哪里跑最后发布于2018-11-06 13:41:04 阅读数 6659 收藏

发布于2018-11-06 13:41:04

分类专栏： python

本文链接： https://blog.csdn.net/huolan__34/article/details/83748701

收起

python 读取pdf文件有3个扩展包 pdfminer3k（python2中为pdfminer）、fitz和pymupdf

1.pdfminer3k

读取并获得pdf文档中的信息：


 
 
   
   
    
    
   
   
   
   
    
    
     
     from pdfminer.pdfparser 
     
     import PDFParser,PDFDocument
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from pdfminer.pdfinterp 
     
     import PDFResourceManager,PDFPageInterpreter,PDFTextExtractionNotAllowed
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from pdfminer.converter 
     
     import PDFPageAggregator
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     from pdfminer.layout 
     
     import LTTextBoxHorizontal,LAParams,LTTextLineHorizontal,LTFigure,LTRect,LTLine,LTCurve
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  文件对象
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     pd_file = open(
     
     "d.pdf", 
     
     "rb")
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  pdf文件解析对象
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     parser = PDFParser(pd_file)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     # print(parser)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  pdf文档对象
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     document = PDFDocument()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     parser.set_document(document)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     document.set_parser(parser)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  初始化文档密码
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     document.initialize()
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     if document.is_extractable:
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         print(
     
     True)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     else:
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     raise PDFTextExtractionNotAllowed
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  存储文档资源
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     src = PDFResourceManager()
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  设备对象
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     device = PDFPageAggregator(src,laparams=LAParams())
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     #  解释器对象
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     inter = PDFPageInterpreter(src,device)
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     pages = document.get_pages()
    
    
   
   

   
   
    
    
   
   
   
   
    
     
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
     for page 
     
     in pages:
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     #print(page.contents)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         inter.process_page(page)
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
         layout = device.get_result()
    
    
   
   

   
   
    
    
   
   
   
   
    
        
     
     for x 
     
     in layout:
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     if isinstance(x, LTTextBoxHorizontal):
    
    
   
   

   
   
    
    
   
   
   
   
    
    
     
                 print(str(x.get_text()))
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     #t = dir(x)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     #print(t)
    
    
   
   

   
   
    
    
   
   
   
   
    
            
     
     #print(type(x))