实操练习—批量处理：PDF文件转为word文件

躺在沙漠中的鱼

于 2024-01-23 13:40:21 发布

阅读量461

点赞数 10

文章标签： pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_69209924/article/details/135769231

版权

用途：批量提取pdf中的文本信息

主要使用库：pdfplumber、os、docx

第一步：定义函数：输入PDF文件的文件路径，即可获取文本

# 导入PDF所在的文件路径，返回文本信息
import pdfplumber
 
def pdf2txt(pdf_path):
    txt = ''
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            txt = txt + page.extract_text()
    return txt

第二步：定义函数：获取文件夹中的文件路径，并保存在列表，需输入的是PDF所在文件夹

#获取文件夹中的文件位置
import os

def get_file_paths(folder):
    file_paths = []
    for root, dirs, files in os.walk(folder):
        for file in files:
            file_path = os.path.join(root, file)
            file_paths.append(file_path)
    return file_paths

第三步：填写保存PDF文件的文件夹路径，获取PDF文件路径

# 填写要提取文件路径的文件夹路径
folder_path = r"文件路径"
file_paths = get_file_paths(folder_path)
print(file_paths)

第四步：

# 导入docx库（主要）
from docx import Document
# 其他用于设置字体等信息所需要的库
from docx.shared import Pt  
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT  
from docx.oxml.ns import qn

#通过循环将文件一个个写入word中，并保存在统一文件夹
for pdffile in file_paths:
    pdf_text = pdf2txt(pdffile)
    text_name = pdffile.split('\\')[-1].split('.')[0]  #切割文件路径，获取文件名
    print(pdf_text)
    document = Document()
    paragraph = document.add_paragraph()
    run = paragraph.add_run()
    run.font.name = 'msyh'  # 使用特定的字体 
    run._element.rPr.rFonts.set(qn('w:eastAsia'), 'msyh')  # 针对东亚字符设置字体
    document.add_paragraph(pdf_text)
    document.save(r"文件夹位置\\{}.docx".format(text_name))

中途遇到的难题：文字在写入word中时，有些内容字体显示方块(方格)

个人解决方式：变更字体，因此导入了Pt、qn等模块

变更字体的结果：用以上代码只将显示方块的文字修改，但总体可以保留全部文字

后续难题：改变整体的文本字体格式，暂不开展编写

躺在沙漠中的鱼

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
实操练习—批量处理：PDF文件转为word文件

第二步：定义函数：获取文件夹中的文件路径，并保存在列表，需输入的是PDF所在文件夹。变更字体的结果：用以上代码只将显示方块的文字修改，但总体可以保留全部文字。中途遇到的难题：文字在写入word中时，有些内容字体显示方块(方格)第三步：填写保存PDF文件的文件夹路径，获取PDF文件路径。第一步：定义函数：输入PDF文件的文件路径，即可获取文本。个人解决方式：变更字体，因此导入了Pt、qn等模块。后续难题：改变整体的文本字体格式，暂不开展编写。用途：批量提取pdf中的文本信息。
复制链接

扫一扫

躺在沙漠中的鱼 CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

163万+: 周排名

14万+: 总排名

1615: 访问

: 等级

94: 积分

22: 粉丝

33: 获赞

5: 评论

26: 收藏

私信

关注

热门文章

最新评论

playwright学习记录
CSDN-Ada助手: 恭喜你写了第6篇博客！看到你在学习playwright上取得的进步，真是令人欣慰。接下来，我建议你可以尝试写一些关于playwright实践经验的分享，或者是结合实际案例进行分析，这样可以更好地巩固自己的学习成果，也能够为读者提供更有参考价值的内容。希望你能继续保持创作的热情，不断进步！加油！
selenium模拟登录B站
CSDN-Ada助手: 恭喜你成功地使用selenium模拟登录B站！这是一项非常有挑战性的技能，能够为你的技术水平增添不少光彩。接下来，我建议你可以尝试使用selenium进行更多的自动化操作，比如发布动态、评论视频等，这样可以更深入地了解selenium的应用。当然，我也期待你接下来的博客，分享更多关于技术的见解和经验。加油！
实操练习—批量处理：PDF文件转为word文件
CSDN-Ada助手: 非常棒的博文！希望能看到更多类似的实操练习，这对读者来说真的非常有帮助。另外，在处理PDF文件的过程中，你可能会遇到一些涉及到文本编码和字体格式的问题，可以考虑学习一些相关的知识，比如Unicode编码、字体嵌入等，这些技能对于更高效地处理文件会很有帮助。希望你能继续分享你的学习心得，也期待看到你在这方面的更多成果！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
实操记录-词云图制作
CSDN-Ada助手: 恭喜你写了第三篇博客！标题“实操记录-词云图制作”听起来很有趣。通过分享你的实操经验，你帮助了读者了解如何制作词云图。我非常喜欢你的创作思路，尤其是结合实际操作来讲解。接下来，我期待看到你更多关于数据可视化的内容，比如其他有趣的图表制作技巧或者数据分析案例。谦虚地说，我相信你的创作将继续激发读者的兴趣，帮助更多人提升数据处理和可视化能力。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
学习日记（总结1-数据类型中字符串的功能）个人总结
CSDN-Ada助手: 恭喜你写下了第一篇博客！标题很有吸引力，我对你总结了数据类型中字符串的功能感到非常感兴趣。从你的标题中可以看出，你在学习过程中对于数据类型的理解已经很深入了。接下来，我建议你在博客的内容中详细解释字符串的各种功能，并结合实际示例进行说明。这样可以帮助读者更好地理解字符串的用法和应用场景。另外，你还可以考虑在博客中分享一些自己的学习经验和技巧，这会让你的博客更加丰富和有趣。继续努力，期待你的下一篇博客！谦虚地说，我相信你的创作会越来越好。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。