你可以使用 Python 的第三方库来将 PDF 转换为文本。下面是一个使用 PyPDF2 库的示例代码:
import PyPDF2# 打开 PDF 文件
with open('document.pdf', 'rb') as file:
# 创建一个 PDF 对象
pdf = PyPDF2.PdfFileReader(file)
# 获取 PDF 文件中的每一页
for page in range(pdf.getNumPages()):
# 读取每一页的文本
text = pdf.getPage(page).extractText()
print(