python处理pdf文件的包分析

最新推荐文章于 2024-06-20 16:45:27 发布

--点点--

最新推荐文章于 2024-06-20 16:45:27 发布

阅读量968

点赞数

分类专栏：编程语言文章标签： python pdf 包组件解析

本文链接：https://blog.csdn.net/liunan591/article/details/103860721

版权

5 篇文章 0 订阅

订阅专栏

需要处理pdf文件，因此使用pip search pdf搜索了一下，将相关包的功能做了一下了解。

查看类型的包

包名	简述	项目地址
pdf-splitter	pdf分页	https://pypi.org/project/pdf-splitter/
PyPDF2	页面处理（合并/分解），基本信息获得	https://pypi.org/project/pyPdf/

包名	简述	项目地址
PDF-Layout-Scanner	pdf解析工具	https://pypi.org/project/PDF-Layout-Scanner/
pdfmajor	pdf解析工具	https://pypi.org/project/pdfmajor/
pdfminer	pdf解析工具	https://pypi.org/project/pdfminer/
pdfminer.six	从pdf中获取信息，主要是文字，也可以用于pdf文档转换为其他文字格式，比如html	https://pypi.org/project/pdfminer.six/
pdfmajor	pdf解析工具，是对pdfminer.six的封装	https://pypi.org/project/pdfmajor/
yapdfminer	对pdfminer的个人延展
pdfparser	pdf parsing tools	https://pypi.org/project/pdfparser/

包名	简述	项目地址
pdf-shuffle	A PDF page/image randomizer, or flashcard quiz from a PDF. Or randomize files from a folder.	https://pypi.org/project/pdf-shuffle/
PDF-Bookmark	a tool for import and export pdf bookmark with the bmk format.	https://pypi.org/project/pdf-bookmark/
bericht	HTML to PDF streaming
pdf_hunter	Search for and download PDF file links from a webpage.	https://pypi.org/project/pdf-hunter/

因为本次主要查找内容处理的包，所以对这部分比较着重，其他的类型会滤掉的多一些，如果有其它优秀的包，也欢迎留言共享。

关注

专栏目录