需要处理pdf文件,因此使用pip search pdf搜索了一下,将相关包的功能做了一下了解。
查看类型的包
包名 | 简述 | 项目地址 |
tc-pdf | 查看给定pdf url 的第一页图像 | https://pypi.org/project/tc-pdf/ |
页面拆分类型的包
包名 | 简述 | 项目地址 |
pdf-splitter | pdf分页 | https://pypi.org/project/pdf-splitter/ |
PyPDF2 | 页面处理(合并/分解),基本信息获得 | https://pypi.org/project/pyPdf/ |
内容处理的包
包名 | 简述 | 项目地址 |
PDF-Layout-Scanner | pdf解析工具 | https://pypi.org/project/PDF-Layout-Scanner/ |
pdfmajor | pdf解析工具 | https://pypi.org/project/pdfmajor/ |
pdfminer | pdf解析工具 | https://pypi.org/project/pdfminer/ |
pdfminer.six | 从pdf中获取信息,主要是文字,也可以用于pdf文档转换为其他文字格式,比如html | https://pypi.org/project/pdfminer.six/ |
pdfmajor | pdf解析工具,是对pdfminer.six的封装 | https://pypi.org/project/pdfmajor/ |
yapdfminer | 对pdfminer的个人延展 | |
pdfparser | pdf parsing tools | https://pypi.org/project/pdfparser/ |
其它
包名 | 简述 | 项目地址 |
pdf-shuffle | A PDF page/image randomizer, or flashcard quiz from a PDF. Or randomize files from a folder. | https://pypi.org/project/pdf-shuffle/ |
PDF-Bookmark | a tool for import and export pdf bookmark with the bmk format. | https://pypi.org/project/pdf-bookmark/ |
bericht | HTML to PDF streaming | |
pdf_hunter | Search for and download PDF file links from a webpage. | https://pypi.org/project/pdf-hunter/ |
因为本次主要查找内容处理的包,所以对这部分比较着重,其他的类型会滤掉的 多一些,如果有其它优秀的包,也欢迎留言共享。