PDFMiner.six是PDFMiner的一个分支,使用六个用于Python 2 + 3兼容性
PDFMiner是从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它完全专注于获取和分析文本数据。PDFMiner允许您获取页面中文本的确切位置,以及其他信息,如字体或线条。它包含一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于文本分析之外的其他目的。
安装PDFMiner.six
1、使用pip安装(不支持中文)
安装Python 2.7或更新版本。(pdfminer.six支持Python 3.x)
$ pip install pdfminer.six
运行以下测试:
$ pdf2txt.py samples/simple1.pdf
2、支持中文,韩文,日文
要支持CJK语言,需要使用源码安装,安装之前你先从pdfminer.six下载
Linux环境
# make cmap
python tools/conv_cmap.py pdfminer/cmap Adobe-CNS1 cmaprsrc/cid2code_Adobe_CNS1.txt
reading 'cmaprsrc/cid2code_Adobe_CNS1.txt'...
writing 'CNS1_H.py'...
...
(this may take several minutes)
# python setup.py install
如果你是Windos环境,可以使用下面的代码安装
mkdir pdfminer\cmap
python to