Python办公自动化:PDF文字提取到word文件中
- 需求解读
- 需要用到的扩展库
- 代码实现
# 把pdf中的文字提取到word文件中
import pdfplumber
import docx
# 利用扩展库打开pdf 文件,并存储pdf内存对象
with pdfplumber.open ('D://XX业务/XXX/XXX市场/2020销年1月XXX销年报告总结.pdf') as pdf:
#新建一个文档对象
dc=docx.Document()
#循环遍历每一页的pdf
for page in pdf.pages:
#把每一页的pdf中的文本作为一个段落添加到文档中
dc.add_paragraph(page.extract_text())
dc.save('./2020.1报告.docx')