【简要版】Linux环境下使用WPS转换文档(JAVA可适配)

本文介绍了在Linux服务器中使用开源库pywpsrpc实现WPS文档格式转换的方法,包括引入依赖、获取WPS应用对象并进行格式转换,同时探讨了docker化部署、复杂配置和性能问题等挑战。
摘要由CSDN通过智能技术生成

Linux + WPS + 文档转换

背景: 目前很多项目使用WPS转换文档,基本都是使用Jacob组件调用window系统版本的WPS完成文档格式的转换(具体资源见:https://sourceforge.net/projects/jacob-project/)。这种方式能实现基本功能,但是鉴于操作系统为windows,无法具备Linux服务器相关的特性优势,如资源管理、伸缩性、扩展性等。WPS虽然有Linux版本,但没有成熟的jar扩展包供我们使用。本文将简述一种开源方案。

博客内容精选:
1、Servlet请求体重复读&修改新姿势
2、根据请求获取后端接口详情
3、封装Springboot项目的starter-sdk新方式
4、Springboot全局处理完整版
5、itextpdf读取文本时上下行位置错乱
6、JAVA读取PDF表格内容
7、JAVA读取PDF出现内容错乱

目前核心难题在于无法找到应用程序与Linux版WPS间的服务调用,这里推荐使用https://github.com/timxx/pywpsrpc

pywpsrpc主要使用python语言编写,通过SIP封装了WPS的C++扩展接口,让转换流程更加简单与清晰(核心转换:(doc|docx)2pdf)
1、引入依赖:pip3 install pywpsrpc

hr, rpc = createWpsRpcInstance()
if hr != S_OK:
    raise ConvertException("Can't create the rpc instance", hr)

hr, app = rpc.getWpsApplication()
if hr != S_OK:
    raise ConvertException("Can't get the application", hr)
app.Visible = False

2、通过python sdk获取application客户端对象

new_file = os.path.splitext(file)[0] + '.' + format
docs = app.Documents
hr, doc = docs.Open(file, ReadOnly=True)
if hr != S_OK:
    return hr

ret = doc.SaveAs2(new_file, FileFormat=formats[format])
doc.Close(wpsapi.wdDoNotSaveChanges)

3、根据目标类型生成文件名,并通过saveAs2方法保存完成格式转换,整体流程与jacob类似
4、文档格式只支持doc、docx、rtf、html、pdf、xml,但不是所有这些类型都可互转

建议:
1、使用docker封装WPS环境,可以实现伸缩容及资源隔离。
2、初始配置流程较为复杂,需考虑wps版本、隐私协议、虚拟界面等问题。
3、如果主应用为java,则重新对Python sdk封装入口即可,具体方式可评估自身设计需求。
4、WPS转换进程不够稳定,长期运行存在转换速度变慢甚至报错,部分转换场景如html2doc性能下降更为明显。
5、WPS在特殊场景下转换失败,如果没有补救措施,则可能会一直不可用。
6、建议在docker环境使用tini包装启动进程,不然运行过程中存在很多僵死进程。
7、ARM版本的Linux场景下也适配,但需要对应的wps的sdk,新版本的WPS程序包基本都被删除,部分版本包虽然有sdk,但因版本问题也会不可用。
8、普通转换场景使用jod即可,集成简单且稳定性较好。缺点是很多源doc为wps编写,可能存在页面排版变化或直接不支持转换,WPS转换性能经优化后也较jod高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值