python pdfminer linux 版本下载_python2/3安装PDFMiner.six将PDF转HTML/TXT - pytorch中文网

最新推荐文章于 2024-06-29 17:46:08 发布

weixin_39625468

最新推荐文章于 2024-06-29 17:46:08 发布

阅读量187

点赞数

文章标签： python pdfminer linux 版本下载

PDFMiner.six是PDFMiner的一个分支，使用六个用于Python 2 + 3兼容性

PDFMiner是从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它完全专注于获取和分析文本数据。PDFMiner允许您获取页面中文本的确切位置，以及其他信息，如字体或线条。它包含一个PDF转换器，可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器，可用于文本分析之外的其他目的。

安装PDFMiner.six

1、使用pip安装(不支持中文)

安装Python 2.7或更新版本。(pdfminer.six支持Python 3.x)

$ pip install pdfminer.six

运行以下测试：

$ pdf2txt.py samples/simple1.pdf

2、支持中文,韩文,日文

要支持CJK语言，需要使用源码安装，安装之前你先从pdfminer.six下载

Linux环境

# make cmap

python tools/conv_cmap.py pdfminer/cmap Adobe-CNS1 cmaprsrc/cid2code_Adobe_CNS1.txt

reading 'cmaprsrc/cid2code_Adobe_CNS1.txt'...

writing 'CNS1_H.py'...

...

(this may take several minutes)

# python setup.py install

如果你是Windos环境，可以使用下面的代码安装

mkdir pdfminer\cmap

python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt

python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt

python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt

python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt

python setup.py install

命令行工具

PDFMiner带有两个方便的工具：pdf2txt.py和dumppdf.py。

1、pdf2txt.py

pdf2txt.py从PDF文件中提取文本内容。它提取所有要以编程方式呈现的文本，即以ASCII或Unicode字符串表示的文本。它无法识别绘制为需要光学字符识别的图像的文本。它还为每个文本部分提取相应的位置，字体名称，字体大小，书写方向(水平或垂直)。访问受到限制时，您需要为受保护的PDF文档提供密码。您无法从没有提取权限的PD文档中提取任何文本。

$ pdf2txt.py -o output.html samples/naacl06-shinyama.pdf

(extract text as an HTML file whose filename is output.html)

$ pdf2txt.py -V -c euc-jp -o output.html samples/jo.pdf

(extract a Japanese HTML file in vertical writing, CMap is required)

$ pdf2txt.py -P mypassword -o output.txt secret.pdf

(extract a text from an encrypted PDF file)

2、dumppdf.py

dumppdf.py以伪XML格式转储PDF文件的内部内容。该程序主要用于调试目的，但也可以提取一些有意义的内容(例如图像)。

$ dumppdf.py -a foo.pdf

(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf

(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg

(extract a JPEG image)

python2/3安装PDFMiner.six将PDF转HTML/TXT - pytorch中文网

原文出处： https://www.ptorch.com/news/157.html

问题交流群：168117787

weixin_39625468

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python pdfminer linux 版本下载_python2/3安装PDFMiner.six将PDF转HTML/TXT - pytorch中文网

PDFMiner.six是PDFMiner的一个分支，使用六个用于Python 2 + 3兼容性PDFMiner是从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它完全专注于获取和分析文本数据。PDFMiner允许您获取页面中文本的确切位置，以及其他信息，如字体或线条。它包含一个PDF转换器，可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器，可用于文本分析之外...
复制链接

扫一扫