Java解析word文档

最新推荐文章于 2024-08-31 10:13:50 发布

weixin_30379911

最新推荐文章于 2024-08-31 10:13:50 发布

阅读量3.3k

点赞数

文章标签： java 后端

原文链接：http://www.cnblogs.com/wangxin37/p/6397876.html

版权

本文讨论了在互联网教育行业中，使用Java解析Word文档的挑战，包括word的结构、公式、非文本内容和版本问题。介绍了尝试的Java解析库如jacob和poi，并提到了商业库Aspose.words的局限性。作者通过使用Open XML SDK 2.0 Productivity Tool揭示word的内部层级结构，为解析问题找到了新的方向。同时，文中还提及了word中公式的处理难题。

摘要由CSDN通过智能技术生成

背景

在互联网教育行业，做内容相关的项目经常碰到的一个问题就是如何解析word文档。
因为系统如果无法智能的解析word，那么就只能通过其他方式手动录入word内容，效率低下，而且人工成本和录入出错率都较高。

疑难点

word解析可以预见的困难主要有以下几个方面:

word 结构问题 —— word不开源，且含有很多非文本内容，比如图表，而已知的常规方法只能解析纯文本内容，所以如果不知道word内部层级结构，解析将难以进行。
word 公式问题 —— word公式来源并非单一，可能是用MathType插件生成的latex公式，也可能是用word自带公式编辑器生成的公式，还有可能公式部分手敲，部分使用搜狗输入法或者其它编辑器输入。不同来源处理方式是否一样？且能否有效读取文档各种上下脚标？方便后期展示？
word 非文本问题 —— word含有很多的非文本内容，比如图表。来源也多样，图表可能是用word自带的画图工具生成的，也有可能是复制粘贴的，不同来源解析方式是否一样？且读取的时候是否能有效获取图片的位置及大小信息？方便文档内容后期在PC端和移动端展示。无论最终方案是什么，肯定是将所有的且需要的非文本信息转换为文本信息。
word 版本问题 —— word有03、07等好几个版本，还有WPS版本，解析是否要全部兼容？后缀名有docx和doc，是否全部兼容？当然，前提是已经成功解析一种类型。
word 规范问题 —— 有些word可能是早期制作的，返工代价太大，所以格式内容多样化。而且就算制定word格式规范，新制作的word也无法保证格式一定正确，除非是程序自动生成的文档。举个例子，试题的题序，肉眼无法区分的格式就有好几种。程序只可能尽量覆盖绝大部分情况，考虑的情况越多，解析正确率越高，当然程序也更复杂。