如何用python将pdf转换为txt、docx、excel（前提：能复制文字的pdf)

最新推荐文章于 2024-06-11 14:20:22 发布

牧文山

最新推荐文章于 2024-06-11 14:20:22 发布

阅读量2.8k

点赞数 6

分类专栏： Python自动化办公文章标签： python

本文链接：https://blog.csdn.net/weixin_42750611/article/details/112004816

版权

利用python的pdfplumber库可以实现转换，一些常用的方法

.extract_text() 用来提页面中的文本，将页面的所有字符对象整理为的那个字符串
.extract_words() 返回的是所有的单词及其相关信息
.extract_tables() 提取页面的表格

1、pdf转txt

import pdfplumber as pb

file_handle=open('out.txt',mode='w',encoding='utf-8')
# 读取PDF文档
pdf = pb.open("需求文档.pdf")
# 绝对路径也可以这么写，下同
#    path = 'D:\\GKProject\\需求文档.pdf'
# 获取页数
a= len(pdf.pages)
print("当前页：",a)
print("-----------------------------------------")

i=0
for i in range(0

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

牧文山

关注关注

6
点赞
踩
29

收藏

觉得还不错? 一键收藏
4
评论
如何用python将pdf转换为txt、docx、excel（前提：能复制文字的pdf)

最近遇到了不小的麻烦。每每可以复制文字，我曾经我们在smallpdf、迅捷pdf上可以轻松地将pdf转换为word，可逐渐地这项功能变得不再好用。尤其是当pdf文件大于3M以上时，他就要求你开通会员，最近发现了一种方法，利用python的pdfplumber库可以实现转换，代码如下：一些常用的方法.extract_text() 用来提页面中的文本，将页面的所有字符对象整理为的那个字符串.extract_words() 返回的是所有的单词及其相关信息.extract_tables() 提取页面的表格
复制链接

扫一扫