pdf 转化为 txt文件

最新推荐文章于 2021-03-13 22:20:10 发布

嬴溱

最新推荐文章于 2021-03-13 22:20:10 发布

阅读量192

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_43368684/article/details/88553981

版权

本文介绍如何将PDF文件转换成TXT文本。通过使用不同的转换工具和在线服务，你可以快速提取PDF中的纯文本内容，方便编辑和进一步处理。无论你是需要整理资料还是进行文本分析，PDF到TXT的转换都是一个实用的步骤。

摘要由CSDN通过智能技术生成

### 打开pdf文件           
import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument       
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

## s：记录空文件的编号
import os
def parse(pdf_path,txt_path,n,s):
    ## 首先判断文件是否为空
    if os.path.getsize(pdf_path):
       #print('文件非空')
       fp = open(pdf_path,'rb')
       ####  用文件对象创建一个PDF文档分析器
       parser = PDFParser(fp)
       ###  创建PDF文档
       document = PDFDocument()
       ## 链接分析器，文档
       parser.set_document(document)
       document.set_parser(parser)
    
       #### 提供初始化密码，若没有，为空字符串
       print('----')
       document.initialize()
           ###检测文档是否提供txt转换，不转换，忽略掉
       if not document.is_extractable:

最低0.47元/天解锁文章

嬴溱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pdf 转化为 txt文件

### 打开pdf文件 import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpre...
复制链接

扫一扫

专栏目录