pdf2htmlex概述
- 将 PDF 转换为HTML而不会丢失文本或格式
- 项目仓库:https://github.com/pdf2htmlEX/pdf2htmlEX
主要特性
- 生成原生的HTML,其中字体和元素位置与pdf一样精准。
- 灵活输出:支持所有内容生成在单个HTML文件中;也支持分页生成多个html文件,资源如字体、图像、CSS生成单独的文件,实现按需加载(需要JavaScript)。
- 文件大小适中,有时甚至比 PDF 还小。
- 支持链接、大纲(书签)、打印、SVG 背景、Type 3字体等
问题
- 不支持在windows中运行,支持linux,如ubuntu、alpine
- 环境比较复杂,难以独立安装
- docker运行必须精确指定标签
docker安装
-
安装镜像
docker pull pdf2htmlex/pdf2htmlex:0.18.8.rc2-master-20200820-alpine-3.12.0-x86_64 -
设置别名
alias pdf2htmlEX=‘docker run -ti --rm -v “pwd</