# 我们使用PDFminer、PDFplumberr操作PDF文档中的文本信息有些功能达不到,今天试验了一下PyMuPDF。PyMuPDF可从Python环境中访问MuPDF的许多重要功能,使用起来很方便,并且
# MuPDF可以访问PDF、XPS、OpenXPS、CBZ,FB2和EPUB(如后辍.pdf,.xps,.oxps,.cbz,.fb2.epub)等很多种格式的文件,所以相较于前两个库,PyMuPDF的功能更加强大,值得我们好好研究
参考文档:https://pymupdf.readthedocs.io/en/latest/
# doc = fitz.open(ifile) #打开文档))
# # doc=fitz.Document(ifile) 与上一行语句作用相同
def pdf_text(path):
doc = fitz.open(path)
# print(doc)
lenXREF = doc._getXrefLength()
req_text = []
for page in doc:
blocks = page.getText('dict').get("blocks