对于可以解析成TXT 的PDF 来说是比较好处理的。
安装需要的包
pip install pdfminer
具体步骤:
1.open 以二进制的办法打开PDF 文件
2.利用PDFParser为打开的文件创建一个pdf文档分析器
3.创建一个PDF文档
4. 连接分析器 与文档对象: parser.set_document(doc);doc.set_parser(parser)
5. 提供初始化密码; 如果没有密码 就创建一个空的字符串:doc.initialize()
6. 检测文档是否提供txt转换,不提供就忽略; 当然对于不提供txt转换的PDF 可以采用OCR 技术;
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed
7.创建PDf 资源管理器 来管理共享资源;
rsrcmgr = PDFResourceManager()
-
#创建一个PDF设备对象
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
9.处理文档对象中每一页的内容
doc.get_pages() 获取page列表
10.循环遍历列表,每次处理一个page的内容
#这里layout是一个LTPage对象 里面存放着 这个pa