PDF转Word

这篇博客介绍了如何用Python处理非扫描件和扫描件的PDF文件转换成Word。对于非扫描件,通过特定模块和代码实现转换;而对于扫描件,需要安装tesseract-ocr并下载语言包,然后利用Python模块进行转换。
摘要由CSDN通过智能技术生成

1.非扫描件

模块

pip install pdf2docx

代码

from pdf2docx import Converter
pdf_file = 'C:/Users/woodwolf/Desktop/01.pdf'
docx_file = 'C:/Users/woodwolf/Desktop/02.docx'
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=None)

输出

[INFO] Start to convert C:/Users/woodwolf/Desktop/01.pdf
[INFO] [1;36m[1/4] Opening document
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值