python如何安装pdfminer_python2/3安装PDFMiner.six将PDF转HTML/TXT - pytorch中文网

PDFMiner.six是PDFMiner的一个分支,使用六个用于Python 2 + 3兼容性

PDFMiner是从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它完全专注于获取和分析文本数据。PDFMiner允许您获取页面中文本的确切位置,以及其他信息,如字体或线条。它包含一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于文本分析之外的其他目的。

安装PDFMiner.six

1、使用pip安装(不支持中文)

安装Python 2.7或更新版本。(pdfminer.six支持Python 3.x)

$ pip install pdfminer.six

运行以下测试:

$ pdf2txt.py samples/simple1.pdf

2、支持中文,韩文,日文

要支持CJK语言,需要使用源码安装,安装之前你先从pdfminer.six下载

Linux环境

# make cmap

python tools/conv_cmap.py pdfminer/cmap Adobe-CNS1 cmaprsrc/cid2code_Adobe_CNS1.txt

reading 'cmaprsrc/cid2code_Adobe_CNS1.txt'...

writing 'CNS1_H.py'...

...

(this may take several minutes)

# python setup.py install

如果你是Windos环境,可以使用下面的代码安装

mkdir pdfminer\cmap

python to

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值