利用python获取pdf中的内容
使用PyPDF2库
下载
pip install PyPDF2
读取PDF文件
- 首先需要读取PDF文件,使用PyPDF.PdfReader的读取对象,然后传入一个文件对象或者是文件路径作为参数
- 传入文件对象
import PyPDF2 with open('path_to_pdf','rb')as f: reader=PyPDF2.PdfReader(f)
- 传入文件路径
import PyPDF2 reader=PyPdf2.PdfReader('path_to_pdf')
- 传入文件对象
- 提取PDF文件的基本信息
- 获取页数
num_pages=len(reader.pages) author=reader.metadata.author title=reader.metadata.title
- 提取单页的文本内容
page=reader.pages[0] text=page.extract_text()
- 获取页数
- 提取多页的文本内容
- 加一个for循环