pdf文档解析库pdfminer.six
在python3环境下要对pdf文档进行解析,需要使用pdfminer.six库,通过pip install pdfminer.six进行安装。
在目前,存在pdfminer和pdfminer.six 两个库。在目前pdfminer的github上,已经停止对pdfminer的更新,但是pdfminer依然可用,但是推荐使用pdfminer.six。
pdfminer.six的使用
安装好pdfminer.six之后,通过import pdfminer进行导入使用。pdfminer库的文本提取方法,主要是high_level模块中的extract_text方法,还有extract_text_to_fp、extract_pages方法。
安装过pdfminer.six之后,通过import pdfminer导入使用
模块的导入
frompdfminer importhigh_level
读取pdf内容示例:
fromio importStringIO
frompdfminer importhigh_level
if__name__ == "__main__":output_string = StringIO()
file = "2019.5p.pdf"
withopen(file,'rb') asreader:
dt = high_level.extract_text(reader,output_string)
print(dt)