Linux + WPS + 文档转换
背景: 目前很多项目使用WPS转换文档,基本都是使用Jacob组件调用window系统版本的WPS完成文档格式的转换(具体资源见:https://sourceforge.net/projects/jacob-project/)。这种方式能实现基本功能,但是鉴于操作系统为windows,无法具备Linux服务器相关的特性优势,如资源管理、伸缩性、扩展性等。WPS虽然有Linux版本,但没有成熟的jar扩展包供我们使用。本文将简述一种开源方案。
博客内容精选:
1、Servlet请求体重复读&修改新姿势
2、根据请求获取后端接口详情
3、封装Springboot项目的starter-sdk新方式
4、Springboot全局处理完整版
5、itextpdf读取文本时上下行位置错乱
6、JAVA读取PDF表格内容
7、JAVA读取PDF出现内容错乱
目前核心难题在于无法找到应用程序与Linux版WPS间的服务调用,这里推荐使用https://github.com/timxx/pywpsrpc
pywpsrpc主要使用python语言编写,通过SIP封装了WPS的C++扩展接口,让转换流程更加简单与清晰(核心转换:(doc|docx)2pdf)
1、引入依赖:pip3 install pywpsrpc
hr, rpc = createWpsRpcInstance()
if hr != S_OK:
raise ConvertException("Can't create the rpc instance", hr)
hr, app = rpc.getWpsApplication()
if hr != S_OK:
raise ConvertException("Can't get the application", hr)
app.Visible = False
2、通过python sdk获取application客户端对象
new_file = os.path.splitext(file)[0] + '.' + format
docs = app.Documents
hr, doc = docs.Open(file, ReadOnly=True)
if hr != S_OK:
return hr
ret = doc.SaveAs2(new_file, FileFormat=formats[format])
doc.Close(wpsapi.wdDoNotSaveChanges)
3、根据目标类型生成文件名,并通过saveAs2方法保存完成格式转换,整体流程与jacob类似
4、文档格式只支持doc、docx、rtf、html、pdf、xml,但不是所有这些类型都可互转
建议:
1、使用docker封装WPS环境,可以实现伸缩容及资源隔离。
2、初始配置流程较为复杂,需考虑wps版本、隐私协议、虚拟界面等问题。
3、如果主应用为java,则重新对Python sdk封装入口即可,具体方式可评估自身设计需求。
4、WPS转换进程不够稳定,长期运行存在转换速度变慢甚至报错,部分转换场景如html2doc性能下降更为明显。
5、WPS在特殊场景下转换失败,如果没有补救措施,则可能会一直不可用。
6、建议在docker环境使用tini包装启动进程,不然运行过程中存在很多僵死进程。
7、ARM版本的Linux场景下也适配,但需要对应的wps的sdk,新版本的WPS程序包基本都被删除,部分版本包虽然有sdk,但因版本问题也会不可用。
8、普通转换场景使用jod即可,集成简单且稳定性较好。缺点是很多源doc为wps编写,可能存在页面排版变化或直接不支持转换,WPS转换性能经优化后也较jod高。