清洗PDF文件中的数据 PDF文件本身是二进制的,内嵌字体、图片等内容,清洗时需要特别对待。 技术一 使用pdfminer解析pdf文件 pdfMiner适用于逐行的文本抽取,表格数据抽取比较弱 技术二 Tabula 提取表格数据