### 打开pdf文件
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
## s:记录空文件的编号
import os
def parse(pdf_path,txt_path,n,s):
## 首先判断文件是否为空
if os.path.getsize(pdf_path):
#print('文件非空')
fp = open(pdf_path,'rb')
#### 用文件对象创建一个PDF文档分析器
parser = PDFParser(fp)
### 创建PDF文档
document = PDFDocument()
## 链接分析器,文档
parser.set_document(document)
document.set_parser(parser)
#### 提供初始化密码,若没有,为空字符串
print('----')
document.initialize()
###检测文档是否提供txt转换,不转换,忽略掉
if not document.is_extractable:
pdf 转化为 txt文件
最新推荐文章于 2021-03-13 22:20:10 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)