1:Python里的PyPDF2库可以提取PDF的内容,但是对于论文格式的PDF、图片过多的PDF,效果不好,针对整齐文本的PDF提取效果不错。
PDF:
提取效果:
PDF提取代码:
from PyPDF2 import PdfReader
# 打开 PDF 文件
with open('example.pdf', 'rb') as file:
# 创建 PdfReader 对象
pdf_reader = PdfReader(file)
# 获取页面数
num_pages = len(pdf_reader.pages)
print(f'Total number of pages: {num_pages}')
# 逐页提取文本
for page_number in range(num_pages):
page = pdf_reader.pages[page_number]
text = page.extract_text()
print(f'Page {page_number + 1} Text:\n{text}')