#代码生活# 读取PDF文字并存储到word文件中

Dcy_ASK

于 2021-03-24 05:51:50 发布

阅读量419

点赞数

分类专栏： Python办公自动化文章标签： python

本文链接：https://blog.csdn.net/weixin_42961082/article/details/115156907

版权

Python办公自动化专栏收录该内容

9 篇文章

订阅专栏

该博客介绍了一个使用Python进行办公自动化的方法，具体是通过`pdfplumber`库读取PDF文件并利用`docx`库将提取的文字保存到Word文档中。示例代码展示了如何遍历PDF的每一页，提取文本并添加到新的Word文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python办公自动化：PDF文字提取到word文件中

需求解读
需要用到的扩展库
代码实现

# 把pdf中的文字提取到word文件中
import pdfplumber
import docx
# 利用扩展库打开pdf 文件，并存储pdf内存对象
with pdfplumber.open ('D://XX业务/XXX/XXX市场/2020销年1月XXX销年报告总结.pdf') as pdf:
    #新建一个文档对象
    dc=docx.Document()
    #循环遍历每一页的pdf
    for page in pdf.pages:
        #把每一页的pdf中的文本作为一个段落添加到文档中
        dc.add_paragraph(page.extract_text())
    dc.save('./2020.1报告.docx')