python简介pdf_PDFMiner首页、文档和下载 - Python PDF 解析器 - OSCHINA - 中文开源技术交流社区...

PDFMiner 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器,可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器,可以用于除文本分析以外的其他用途。

特性

完全用 Python 编写

解析、分析和转换 PDF 文档

PDF-1.7 规范支持

CJK 语言和垂直书写脚本支持

支持各种字体类型(Type1、TrueType、Type3 和 CID)

基本加密(RC4)支持

大纲(TOC)提取

标记内容提取

自动布局分析

PDFMiner 内置两个工具:pdf2txt.py 和 dumppdf.py:

pdf2txt.py 从 PDF 文件中提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的 PDF 你需要提供一个密码才能解析,对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug ,但是它也可能用于提取一些有意义的内容(比如图片)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python 是一门简单易学且功能强大的编程语言。它拥有高效的高级数据结构,并且能够用简单而又高效的 方式进行面向对象编程。Python 优雅的语法和动态类型,再结合它的解释性,使其在大多数平台的许多领 域成为编写脚本或开发应用程序的理想语言。 你可以自由地从 Python 官方点: http://www.python.org,以源代码或二进制形式获取 Python 解释器及其标 准扩展库,并可以自由的分发。此站点同时也提供了大量的第三方 Python 模块、程序和工具,及其附加文 档。 你可以很容易的使用 C 或 C++(其他可以通过 C 调用的语言)为 Python 解释器扩展新函数和数据类型。 Python 还可以被用作定制应用程序的一门扩展语言。 本手册非正式的向读者介绍了 Python 语言及其体系相关的基本知识与概念。在学习实践中结合使用 Python 解释器是很有帮助的,不过所有的例子都是完整的,所以本手册亦可离线阅读。 如果需要了解相关标准库或对象的详细介绍,请查阅 Python 参考文档Python 参考手册 提供了更多语言 相关的正式说明。如果想要使用 C 或 C++ 编写扩展,请查阅 Python 解释器扩展和集成章节 和 C API 参考 手册 。当然也可阅读一些深入介绍 Python 知识的图书。 本手册不会尝试涵盖 Python 的全部知识和每个特性,甚至不会涵盖所有常用的特性。相反地,它介绍了 Python 中许多最引人瞩目的特性,并且会给你一个关于语言特色和风格的认识。读完之后,你将能够阅读 和编写 Python 模块或程序,并为以后使用 Python 参考手册 继续学习诸多 Python 模块库做好准备。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值