网上找了JS将PDF转html,貌似没有,比较多的都是html转PDF。
pdf.js这个可以将PDF在HTML5 平台上展示。那么转换成html5或其他呢?
现在的需求主要是为了对PDF转换成可操作的html5文档(主要是分离图片、文字、提取字库等功能),然后对其选中文本设置id、class、添加一些动作之类。
【寻求答案ing...】不局限与pdf.js
有思路的朋友们可以探讨一下...
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
pdf.js – 利用HTML5技术读取PDF文件:http://www.html5dw.com/portal.php?mod=view&aid=203
pdf.js在firefox下运行,其他浏览器运行不怎么兼容
常见的 PDF 阅读功能一应俱全,渲染速度上也已经和本地的 PDF 阅读插件无异。
毫无疑问 pdf.js 将被整合入 Gecko 成为 Firefox 的内嵌 PDF 阅读器,但是具体整合时间表尚未确定。
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
HTML5文档转换工具Crocodoc兴起:http://www.csdn.net/article/2012-05-02/2805221 (这个貌似不错,不过是在线的。)
http://preview.crocodoc.com 在线上传文档可下载,可预览(已试过,可以生成html5,采用内嵌SVG)
http://personal.crocodoc.com/ 新的个人上传文件转换
https://crocodoc.com/see-it-in-action/upload/ 这个也是上传的 不过上传了没反应。
Crocodoc现在已经被box收购了http://blog.box.com/2013/05/box-is-acquiring-crocodoc-to-reimagine-documents-in-the-cloud/
可以给普通消费者提供文档转换,它还为企业客户提供服务并整合到客户的产品中
在线转换教程:http://www.freehao123.com/crocodoc-com/
box开发者使用:http://developers.box.com/using-the-view-api-with-the-content-api/
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
Java:采用xpdf将pdf转html http://www.iteye.com/topic/333676
转换后的效果是:只是提取pdf中的文字出来,没有图片提取等。
nodejs:pdf转html http://blog.yourtion.com/nodejs-convert-pdf-to-html.html
没试验,估计跟上面的Java一样只是提取文字而已。(已调试,简单地提取文字而已)
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
由于 Crocodoc在线上传且部分无法转换成功的局限性,我后来找了另外的转换工具。——PDF2HtmlEx
其转换的效果还不错,说是高保真的。刚开始我觉得唯一不好就是每一个pdf就只转换成一个html,没有抽离文字、图片、字体库等等,还对字体重编码(考虑文件大小优化问题)。后来发了邮件给作者,他回复了可以加参数,果真如此:参数请参考:https://github.com/coolwanglu/pdf2htmlEX/wiki/QuickStart
如:pdf2htmlEX --embed cfijo --dest-dir out pdf/test.pdf
还可以指定字体库参数 --font-format <string>
功能强大,更多功能可以使用pdf2htmlEx --help 获取
PDF2htmlEx window版本下载 :
http://soft.rubypdf.com/software/pdf2htmlex-windows-version
使用方法:http://blog.rubypdf.com/2013/08/19/pdf2htmlex-windows-verion-release/
PDF2htmlEx百科:
pdf2htmlEX:高保真PDF至HTML转换器
http://www.linuxidc.com/Linux/2012-09/69749.htm
开发者:王路 PDF2html github版本 :https://github.com/coolwanglu/pdf2htmlEX
—————————— —————————— —————————— —————————— —————————— —————————— —————————— ————
总结:采用PDF2htmlEx,功能强大,免费开源,高保真转换效果。
与其他工具对比:
Convert to HTML 5 | Parse by JS | Convert to image | Convert to HTML 4 | Adobe PDF plugin | Other plugins | |
---|---|---|---|---|---|---|
Example | pdf2htmlEX | PDF.js | pdftoppm (poppler) Google Doc | pdftohtml (poppler) | Adobe PDF Plugin | N/A |
Briefing | PDF elements are converted into corresponding or closest HTML elements | PDF file is loaded, parsed and rendered by Javascript | PDF pages are converted into images and shown in web pages | Similar as “Convert to HTML 5”, but with much less features | Official plugin | Non-official PDF plugins, Flash-based plugins or others |
Open source | Yes | Some (pdf.js) | Poppler is open source. Google Doc may be based on poppler as well, because they showed same errors. | Some (pdftohtml) | No | Maybe |
Free | Yes | Some | Some | Some | Yes | Some |