使用Python将PDF批量转为word或者html,亲测好用

该文章介绍了一个Python脚本,该脚本利用win32com接口与AdobeAcrobatDC交互,将指定目录下的PDF文件转换为HTML格式。脚本首先安装必要的win32com库,然后通过AdobeAcrobatDC的JavaScript对象实现转换功能,遍历指定文件夹,对每个PDF文件进行处理,并将结果保存到output子目录中。
摘要由CSDN通过智能技术生成

主要利用了Adobe Acrobat DC软件的能力,python环境的配置略过…
第一步:
安装win32com

pip install win32com

第二步:
下载Adobe Acrobat DC,软件本身是收费的,但是有万能的度娘,附个链接吧
提取码:8888

第三步:
执行下列代码

from win32com.client.dynamic import Dispatch, ERRORS_BAD_CONTEXT

import os
import winerror
from time import sleep

ERRORS_BAD_CONTEXT.append(winerror.E_NOTIMPL)


def pdf2word(f_path, d_path):
    try:
        AvDoc = Dispatch("AcroExch.AVDoc")
        AvDoc.Open(f_path, "")
        pdDoc = AvDoc.GetPDDoc()
        jsObject = pdDoc.GetJSObject()
        jsObject.SaveAs(d_path, "com.adobe.acrobat.html")
        print('ok')
    except Exception as e:
        print('error')
        print(e)
    finally:
        pdDoc.Close()
        AvDoc.Close(True)


paths = os.walk(r'D:\AAA_DWP\files')
for path, dir_lst, file_lst in paths:
    for file_name in file_lst:
        if file_name.startswith("~$"):
            continue
        if file_name.endswith(".pdf"):
            print('>>>>>>>>>>>>>>>>>>>> start:', file_name)
            full_name = os.path.join(path, file_name)
            out_file = full_name.replace('.pdf', '.html')
            if os.path.exists(out_file):
                continue
            else:
                f_path = full_name
                d_path = 'D:\\AAA_DWP\\files\\output\\' + file_name.replace('.pdf', '.html')
                pdf2word(f_path, d_path)
                print('>>>>>>>>>>>>>>>>>>>> finish')
                sleep(10)
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值