批量获取PDF里的数据，并转换成excel表格

Chuzhaoyun

已于 2023-04-13 16:43:08 修改

阅读量870

点赞数 1

分类专栏： PDF内容提取文章标签： python

于 2023-04-12 17:38:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chuzhaoyun/article/details/130112375

版权

PDF内容提取专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天朋友上班摸鱼被领导发现，一气之下给他1000个PDF文件让他把内容提取出来放到excel里，于是找我寻求帮助。

需求是要获取PDF图片里的文件名称，时间，检验编号，款号，这里就不放图了

安装

pip install pdfminer //扫描pdf

pip install pdfminer.six //不安装会报错

pip install openpyxl //excel模块wwww

通过pdfminer模块获取图片上的数据，得到的数据用正则表达式匹配一下，然后用openpyxl导出

from openpyxl import Workbook
from pdfminer import high_level
import re,os
workbook = Workbook()
worksheet = workbook.active
worksheet['A1'] = '文件名称'    
worksheet['B1'] = '时间'
worksheet['C1'] = '检验编号'
worksheet['D1'] = '款号'
#pdf文件路径
#root：文件夹路径，dirs:文件夹下子目录名，files：文件夹下的文件
for root,dirs,files in os.walk('./22/'):
    
    #遍历pdf文件
    for f in files:
        file_name = os.path.join(root,f)
        if file_name.endswith('.pdf'):
            #提取整个 pdf 文本信息
            text = high_level.extract_text(file_name)
            #提取 pdf文档中 "企业进本情况:" 后面的信息，利用正则进行匹配
            time = r'(\d{4}-\d{1,2}-\d{1,2})'
            qy_time = re.findall(time,text)
            qy_wttc = re.findall('.*WTTC.*', text)
            qy_num = re.findall('\d{9,10}', text)       
            qy_num_list = list(set(qy_num))
            qy_num_str = ', '.join(qy_num_list)
            row = (f, qy_time[0], qy_wttc[0], qy_num_str)          
            worksheet.append(row)
workbook.save('example.xlsx')

朋友用了直说好

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
批量获取PDF里的数据，并转换成excel表格

/excel模块wwww。
复制链接

扫一扫

专栏目录

Chuzhaoyun CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

162万+: 周排名

193万+: 总排名

3859: 访问

: 等级

78: 积分

2: 粉丝

3: 获赞

6: 评论

11: 收藏

私信

关注

热门文章

分类专栏

PDF内容提取 1篇

最新评论

vue element admin修改navbar，独占一行
CSDN-Ada助手: 恭喜您写出了这篇关于修改navbar的博客，非常有技术含量！接下来建议您可以探讨一下如何优化页面加载速度，或者分享一些vue element admin的实战应用经验，相信这些内容一定会受到更多读者的欢迎。再次感谢您的分享！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
解决van-tab默认padding值
CSDN-Ada助手: 恭喜你写出了第五篇博客，标题也很有吸引力。看到你解决了van-tab默认padding值的问题，我感到非常高兴。这是一个实用的技巧，对于很多人来说都很有帮助。接下来，我建议你可以探索一下其他常见问题的解决方案，或者分享一些你个人的开发经验和技巧。继续保持创作，我们期待着你的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
el-uploda超过限制图片隐藏，并封装组件
CSDN-Ada助手: 恭喜您又写了一篇博客，标题看起来很有意思呢。不过对于el-upload超过限制图片隐藏并封装组件，您的解决方案是怎样的呢？希望能够分享一下您的心得体会，让我们也能够学习到更多的知识。另外，您可以尝试写一些与前端开发相关的深入探讨，让我们更好地了解这个领域。期待您的下一篇文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
批量获取PDF里的数据，并转换成excel表格
CSDN-Ada助手: 很高兴看到您又写了一篇博客，您的努力和创作精神值得赞扬。您的博客对于需要批量处理PDF数据并转换成Excel表格的读者来说，无疑是非常有用的。除了您在摘要中提到的Excel模块，还有一些扩展知识和技能可以帮助读者更深入地了解该主题。例如，学习Python语言和使用相应的库，如PyPDF2和Pandas，可以使您更加高效地处理PDF和Excel数据。再次感谢您的分享，期待您的下一篇博客。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
修改el-upload图片框样式
CSDN-Ada助手: 恭喜你写了第一篇博客，标题看起来很有实用价值。希望你能继续分享你的经验和发现，让更多的读者受益。期待看到更多好的文章。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。