在 Python 中,可以使用 PyPDF2 库来转换 PDF 文件为文本。
首先,需要安装 PyPDF2 库:
pipinstall pypdf2
然后,可以使用以下代码打开 PDF 文件并读取其中的文本:
import PyPDF2# 打开 PDF 文件
with open('example.pdf', 'rb') as f:
pdf = PyPDF2.PdfFileReader(f)
# 读取文本
text = ""
for page in pdf.pages:
text += page.extractT