数据清洗（三）----- 清洗PDF文件中的数据

本文链接：https://blog.csdn.net/Coding___Man/article/details/86527756

可移植文档格式（PDF）存储的文件相对较复杂，因为它是以二进制的形式存储的，格式固定，不可修改。使用起来很方便，但是里面的信息相对较难提取，下面将介绍一些方式提取FDF中的信息。

1. 最简单的方式----复制

有pdf文件里面的内容可以复制出来再整理，这对于需要从PDF中拿少量信息来说十分便利；但是数据比较多时这样做的效率低下，而且有的PDF根本无法复制，因此这种方式局限性很大。

2. pdfMiner3k

这个python的程序包使我们可以从PDF中提取出需要的信息。它自带的 pdf2txt 和 dumpPDF 工具可以提取并输出相应的信息。

比如下面的这个例子：（别人写的，我这里只是借用说明一下）

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
 解析pdf 文本，保存到txt文件中
'''
path = r'../../data/pdf/阿里巴巴Java开发规范手册.pdf'
def parse():