通过用Python代码把pdf文档转换成word文档,但只能简单的提取pdf文档的文字内容,对于pdf文档中的图片和表格无法提取
一、安装pdfplumber库
二、Python实现代码
import pdfplumber
from docx import Document
def pdf_to_word(pdf_path, word_path):
# 创建一个Word文档对象
doc = Document()
# 使用pdfplumber打开PDF文件
with pdfplumber.open(pdf_path) as pdf:
# 遍历PDF的每一页
for page in pdf.pages:
# 提取页面文本
text = page.extract_text()
if text:
# 将提取的文本添加到Word文档的新段落中
doc.add_paragraph(text)
# 保存Word文档
doc.save(word_path)
# 使用示例
pdf_path = '蝶恋花.pdf' # 你的PDF文件路径
word_path = 'output.docx' # 输出Word文件路径
pdf_to_word(pdf_path, word_path)
print("PDF转换到Word完成。")
三、结果
运行代码成功后,在同一目录下得到一个output的word的文件