将PDF文件转换成HTML不会的学过来!

PDFMiner 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器,可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器,可以用于除文本分析以外的其他用途。

特性
完全用 Python 编写

解析、分析和转换 PDF 文档

PDF-1.7 规范支持

CJK 语言和垂直书写脚本支持

支持各种字体类型(Type1、TrueType、Type3 和 CID)

基本加密(RC4)支持

大纲(TOC)提取

标记内容提取

自动布局分析

PDFMiner 内置两个工具:pdf2txt.py 和 dumppdf.py:

pdf2txt.py 从 PDF 文件中提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的 PDF 你需要提供一个密码才能解析,对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug ,但是它也可能用于提取一些有意义的内容(比如图片)。

最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可,希望能对你有所帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值