linux 下转换html为pdf文件怎么打开,Linux下使用pdf2htmlEX将pdf转换成html格式

最新推荐文章于 2024-07-27 20:10:55 发布

遛狗没拴绳

最新推荐文章于 2024-07-27 20:10:55 发布

阅读量321

点赞数

文章标签： linux 下转换html为pdf文件怎么打开

项目上遇到需求：将pdf文件转换成html格式文件，供另外的服务做html解析从而获取文件内容信息，这里我采用的是pdf2htmlEX作为转换工具，效果不错。

推荐使用最便捷的方法，直接运行docker容器内的程序转换，避免部署工具所需要的环境等，节约很多时间。

先安装docker并配置docker服务自启动，参考文章：直接运行docker进行转换docker run -ti --rm -v `pwd`:/pdf bwits/pdf2htmlex pdf2htmlEX --zoom 1.3 test.pdf或者为docker命令添加别名alias pdf2htmlEX='docker run -ti --rm -v `pwd`:/pdf bwits/pdf2htmlex pdf2htmlEX'

测试一下pdf2htmlEX --zoom 1 test.pdf

效果跟前面的一样，转换效果不错，感谢插件作者。指定输出位置转换：pdf2htmlEX --zoom 1 --dest-dir ./out test.pdf

参数：

--zoom 缩放比例

--dest-dir 输出目录

test.pdf 待转换的文件

更多用法参考官方文档。

扩展一下

结合我之前的文章：doc/docx文档，我们可以先将其转换成pdf然后再继续转换成html。

doc/docx转pdfsoffice --headless --convert-to pdf ./1003437-1560257355.docx --outdir ./

pdf转htmldocker run -it --rm -v `pwd`:/pdf --privileged=true bwits/pdf2htmlex pdf2htmlEX --zoom 1 1003437-1560257355.pdf

html解析为jsonpython /tools/parser/htmlParser.py 1003437-1560257355.html

这样我们就使用同一套解析程序兼容解析了doc/docx/pdf，在程序中使用运行docker命令时将-it去掉，将要转换的目录正确挂在到docker中并保证运行docker命令的用户对目录和文件有读写权限。

Linux下使用pdf2htmlEX将pdf转换成html格式

更多精彩，敬请关注本博微信公众号：hsu1943

遛狗没拴绳

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
linux 下转换html为pdf文件怎么打开,Linux下使用pdf2htmlEX将pdf转换成html格式

项目上遇到需求：将pdf文件转换成html格式文件，供另外的服务做html解析从而获取文件内容信息，这里我采用的是pdf2htmlEX作为转换工具，效果不错。推荐使用最便捷的方法，直接运行docker容器内的程序转换，避免部署工具所需要的环境等，节约很多时间。先安装docker并配置docker服务自启动，参考文章：直接运行docker进行转换docker run -ti --rm -v `pwd...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。