1. 概述
windows下借助.net好解决这个问题.
尝试python java php 都被坑了,尤其是docx之前的word版本。
最终解决办法:libreoffice
2. 安装
yum install libreoffice libreoffice-headless
源码:
http://downloadarchive.documentfoundation.org/libreoffice/old/3.4.5.2/
3. 使用
soffice --headless --convert-to html:HTML test.doc
soffice --headless --convert-to pdf:PDF test.doc
支持的类型:
https://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/
https://cgit.freedesktop.org/libreoffice/core/tree/filter/source/config/fragments/filters
可以加--outdir指定输出目录
输出pdf中文会有乱码,博客有说法是没有中文字体库
http://www.cnblogs.com/heimirror/p/3792460.html