windows下使用python运行pdf2htmlex

本文介绍了如何在Windows上下载并安装pdf2htmlex,通过Python调用该工具将PDF转换为HTML。尽管转换后效果与原PDF一致,但文字拆分问题使得HTML难以解析。
摘要由CSDN通过智能技术生成

1、下载

网址:http://soft.rubypdf.com/software/pdf2htmlex-windows-version


我下载的第二个。

2、安装

解压,shift+鼠标右键在当前文件夹下运行cmd(powershell)

输入 .\pdf2htmlEX,得到下列窗口说明安装成功

(本来应该直接输入pdf2htmlEX就可以的不知道为什么没成功?)


3、使用

在PDF所在文件夹的上级文件夹(PDF所在文件夹叫pdf)下打开编译器

import subprocess

filename = "2" #你的文档名
subprocess.call(r"F:\aboutpython\pdf2htmlEX-win32-0.14.6-with-poppler-data\pdf2htmlEX.exe pdf/"+filename+".pdf  --dest-dir  pdf/"+filename, shell=True)

#这个函数有四个参数,第一个是要运行的进程(pdf2htmlEX.exe),第二个是要处理的pdf,第三个是--dest-dir(不知道是什么),第四个是输出

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值