本文作者:王碧琪 文字编辑:方 言 技术总编:张 邯
![c91b146a42a1f76875274146841660e3.gif](https://img-blog.csdnimg.cn/img_convert/c91b146a42a1f76875274146841660e3.gif)
![c91b146a42a1f76875274146841660e3.gif](https://img-blog.csdnimg.cn/img_convert/c91b146a42a1f76875274146841660e3.gif)
Python云端培训课程火热招生中~
爬虫俱乐部将于2020年7月25日至28日在线上举行Python编程技术训练营,本次培训采用理论与案例相结合的方式,帮助大家在掌握Python基本思想的基础上,学习科学计算技术与网络数据抓取技术,详情可点击《Python云端培训课程开始报名~》,
之前的推文中,我们使用PDFminer、PDFplumber提取了PDF文档中的文本信息,今天我们介绍PyMuPDF。PyMuPDF可从Python环境中访问MuPDF的许多重要功能,而MuPDF可以访问PDF、XPS、OpenXPS、CBZ(漫画书档案)、FB2和EPUB(电子书)格式的文件,这些是扩展名为.pdf,.xps,.oxps,.cbz,.fb2或.epub的文件,所以相较于前两个库,PyMuPDF的功能更加强大。 今天待处理的pdf文档内容如下:pip install pymupdf