我们正在开发一个需要将PDF文件转换为HTML的网站,因为有些PDF文件有一个表单(不一定是可填充的PDF,这些PDF文件是打印出来填写的)。
所以我们希望通过我们的网站来填写,而不是打印文件和用钢笔填写。我们要无纸化了。
DocuSign提供了这些功能,您可以在其中上载PDF,然后可以将其自定义为具有文本框复选框。所以我们使用DocuSign作为参考,但仍然没有弄清楚他们是如何做到的(PDF到HTML的完美转换,反之亦然)。
到目前为止,我已经尝试了几个第三方软件来将PDF转换为HTML。我试过XPDF、Poppler和ImageMagick。
ImageMagick将PDF转换为不适合的图像,因为这些图像在转换回PDF进行打印时具有较大的大小。
根据我的研究,Poppler是一个fork XPDF,我在使用XPDF之后尝试过它,看看它是否更好,它基本上做了XPDF做的事情,但是当转换成HTML时,它将PDF转换成CSS上更大的像素。那很好,但它失去了字体系列。
XPDF将PDF转换为HTML,但像素较小,因此当我将其转换回PDF时,它不适合整个页面,我仍然需要手动调整所有CSS以适应它。
所以在使用了这些第三方软件之后,我使用MPDF将HTML文件转换回PDF,并且转换后的文件有很多不一致之处。文本未正确对齐。基本上和原来的PDF不一样。
任何帮助都会被感激的谢谢!