在 Python 中,可以使用 PyPDF2 库来将 PDF 转换为文本。
首先,需要安装 PyPDF2:
pipinstall pypdf2
然后,可以使用以下代码将 PDF 转换为文本:
import PyPDF2# 打开 PDF 文件
with open('document.pdf', 'rb') as file:
# 创建 PDF 阅读器对象
reader = PyPDF2.PdfFileReader(file)
# 读取所有页面
for page in range(reader.getNumPages()):
# 读取单独的页面
page_obj = reader.getPage(page)
# 获取页面上的文本
text = page_obj.extractText()
print(text)
在这段代码中,我们首先使用 open
函数打开 PDF 文件,然后创建一个 PdfFileReader
对象来读取文件。之后,我们使用 getNumPages
方法来获取 PDF 中的页面数,并使用 getPage
方法读取单独的页面。最后,使用 extractText
方法提取页面上的文本。
注意:这段代码仅能够将纯文本 PDF 转换为文本。如果 PDF 中包含图像或其他复杂元素,则可能无法完全转换为文本。