使用Python将PDF批量转为word或者html，亲测好用

初学者↑

已于 2023-10-13 13:22:23 修改

阅读量983

点赞数 1

分类专栏：实用代码片段文章标签： python pdf word

于 2023-06-28 13:44:29 首次发布

本文为博主原创文章，转载无需注明出处。水平有限，错误百出，望谨慎转载

本文链接：https://blog.csdn.net/qq_27574367/article/details/131435043

版权

实用代码片段专栏收录该内容

10 篇文章 0 订阅

订阅专栏

该文章介绍了一个Python脚本，该脚本利用win32com接口与AdobeAcrobatDC交互，将指定目录下的PDF文件转换为HTML格式。脚本首先安装必要的win32com库，然后通过AdobeAcrobatDC的JavaScript对象实现转换功能，遍历指定文件夹，对每个PDF文件进行处理，并将结果保存到output子目录中。

摘要由CSDN通过智能技术生成

主要利用了Adobe Acrobat DC软件的能力，python环境的配置略过…
第一步：
安装win32com

pip install win32com

第二步：
下载Adobe Acrobat DC，软件本身是收费的，但是有万能的度娘，附个链接吧
提取码：8888

第三步：
执行下列代码

from win32com.client.dynamic import Dispatch, ERRORS_BAD_CONTEXT

import os
import winerror
from time import sleep

ERRORS_BAD_CONTEXT.append(winerror.E_NOTIMPL)


def pdf2word(f_path, d_path):
    try:
        AvDoc = Dispatch("AcroExch.AVDoc")
        AvDoc.Open(f_path, "")
        pdDoc = AvDoc.GetPDDoc()
        jsObject = pdDoc.GetJSObject()
        jsObject.SaveAs(d_path, "com.adobe.acrobat.html")
        print('ok')
    except Exception as e:
        print('error')
        print(e)
    finally:
        pdDoc.Close()
        AvDoc.Close(True)


paths = os.walk(r'D:\AAA_DWP\files')
for path, dir_lst, file_lst in paths:
    for file_name in file_lst:
        if file_name.startswith("~$"):
            continue
        if file_name.endswith(".pdf"):
            print('>>>>>>>>>>>>>>>>>>>> start:', file_name)
            full_name = os.path.join(path, file_name)
            out_file = full_name.replace('.pdf', '.html')
            if os.path.exists(out_file):
                continue
            else:
                f_path = full_name
                d_path = 'D:\\AAA_DWP\\files\\output\\' + file_name.replace('.pdf', '.html')
                pdf2word(f_path, d_path)
                print('>>>>>>>>>>>>>>>>>>>> finish')
                sleep(10)