word转html方法调研
最近有需求可能用到word转html,所以前期调研了一番,整理如下。
问题描述
在不明确问题的情况下谈解决方案是不明智的,所以先明确问题:
现在线下有一批word文档,后台提供上传入口,上传后需要将内容解析出来并支持在富文本编辑器中编辑,word文档内有留白,可以在编辑器内填上内容,生成新的数据,原word与新生成的word最终都要已pdf的形式留存。
我是这样分析的:
第一种方案
word上传后需要能在编辑器内编辑,所以需要word转html。
最终的word需要生成为pdf,也就要求第一步生成的html能保证格式的情况下生成pdf。
第二种方案
早在之前就了解过word生成pdf,所以自然想到能否不通过html,直接word到pdf呢?这样不但可以减少代码的复杂度,也能减少误差,毕竟机器的转换次数越多,误差就越大。
但是根据问题的描述,导入的word其实就是类似于模板,我们需要能编辑,但是这个方法,可能不太方做内容的调整,所以这种方法待定。
word to html
所有方法只讲具体实现,详情可查看官网。
unoconv这个工具是依赖于LibreOffice或OpenOffice,这两个Office都是基于开源软件的,通常用LibreOffice(可能因为是协议的原因,LibreOffice功能更全面),包括Debian等发行版默认也安装的LibreOffice。
我的是Centos环境,