import pandas as pd # 数据处理库,常见的DtaFrame、Series数据对象处理
然后,再把相应的PDF数据提取出来并且保存在DataFrame数据对象中。
打开PDF文件、得到PDF数据文件对象
pdf_obj = pdfplumber.open(‘data.pdf’)
这里我们以获取第一页的PDF数据为例
page_1 = pdf_obj.pages[0]
从得到的第一页数据中提取表格数据
data_table = page_1.extract_table()
将提取到的数据表格转换为DataFrame数据对象
data_frame = pd.DataFrame(data_table)
打印查看DataFrame数据
print(data_frame)
得到DataFrame数据对象之后,需要进行数据处理的话可以参考前面的文章DataFrame数据处理相关的知识点。
最后,将准备好的DataFrame数据对象保存成Excel格式的数据文件就大功告成啦。
writer = pd.ExcelWriter(‘C:\data.xlsx’) # 设置文档路径
data_frame.to_excel(writer, index=None, startrow=1, encoding=‘utf-8’,sheet_name=‘数据统计’) # 设置Excel对象
ws = writer.sheets[‘数据统计’] # 写入工作表名称
ws.write_string(0, 0, ‘我是一个标题’) # 添加标题
writer.save() # 保存
【往期精彩】
● sched 模块中巨好用的轻量级定时任务神器scheduler!
● 不用再使用命令行打包成exe,有人写出了UI应用,可视化UI界面对python程序进行打包的方法!
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!