Python实例：pdf文档转txt

最新推荐文章于 2024-08-04 01:01:29 发布

肥宝Fable

最新推荐文章于 2024-08-04 01:01:29 发布

阅读量6.9k

点赞数 1

分类专栏： Python 肥宝的实验室文章标签： python 实例 pdf转txt

本文链接：https://blog.csdn.net/u012175089/article/details/69267037

版权

肥宝的实验室同时被 2 个专栏收录

175 篇文章 18 订阅

订阅专栏

Python

41 篇文章 3 订阅

订阅专栏

首先，这是一个比较粗糙的版本，因为已经够用了，而且对pdf的格式不熟悉，所以暂时没有进一步优化。

还有，这是转成txt的，所以如果是有图片的pdf是无法保存图片的。

至于本来就是图片的文本，这里是无法分析出来的。那些图片的pdf，估计要用图形匹配的方式来处理，类似于超速拍摄的车牌识别。

不过这样的程度，已经不是文本处理了。扯远了。。。

转出来的文字，好像按照pdf里面的所展示的来换行了，看不到有什么规则还原，我也不知道怎么处理，将就着用吧。

另外，初始代码是网上找的，最初地址不知道哪里了。

用到了第三方库pdfminier

pdfminer库的地址 https://pypi.python.org/pypi/pdfminer3k

下载后，用cmd执行命令 setup.py install

安装完之后打开eclipse会弹出要求加载一些东西，点击确定就行了。

再来看看代码：

import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed


class CPdf2TxtManager():
    '''
    classdocs
    '''


    def __init__(self):
        '''
        Constructor
        '''
    
    def changePdfToText(self, filePath): 
        file = open(path, 'rb') # 以二进制读模式打开
        #用文件对象来创建一个pdf文档分析器
        praser = PDFParser(file)
        # 创建一个PDF文档
        doc = PDFDocument()
        # 连接分析器 与文档对象
        praser.set_document(doc)
        doc.set_parser(praser)
    
        # 提供初始化密码
        # 如果没有密码 就创建一个空的字符串
        doc.initialize()
    
        # 检测文档是否提供txt转换，不提供就忽略
        if not doc.is_extractable:
            raise PDFTextExtractionNotAllowed
        
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF设备对象
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        pdfStr = ''
        # 循环遍历列表，每次处理一个page的内容
        for page in doc.get_pages(): # doc.get_pages() 获取page列表
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            # 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性，
            for x in layout:
                if (isinstance(x, LTTextBoxHorizontal)):
                    pdfStr = pdfStr + x.get_text() + '\n'
                    
        fileNames = os.path.splitext(filePath)            
        file2 = open(fileNames[0] + '.txt','wb')#保存这些内容
        file2.write(pdfStr.encode())
        file2.close()    
        file.close()
        
if __name__ == '__main__':
    '''
     解析pdf 文本，保存到txt文件中
    '''
    path = r'C:\Users\Administrator\Desktop\《精力管理》.pdf'
    pdf2TxtManager = CPdf2TxtManager()
    pdf2TxtManager.changePdfToText(path)