我有一个单词/ docx文件,其中包含图像下的方程式
我想要读取文件word / docx的数据并保存到我的数据库中,当需要时我可以从数据库中获取数据并在我的html页面上显示我使用apache Poi读取数据格式docx文件但它不能取公式请帮助我!
答案
Word *.docx文件是包含ZIP文件的XML档案,这些文件是Office Open XML。 Word *.docx文件中包含的公式是Office MathML (OMML)。
不幸的是,这种XML格式在Microsoft Office之外并不是很有名。因此,它不能直接用于HTML。但幸运的是它是XML,因此可以使用Transforming XML Data with XSLT进行转换。因此,我们可以将OMML转换为MathML,例如,可用于更广泛的用例区域。
通过XSLT的转换过程主要基于转换的XSL定义。不幸的是,创建这样的东西也不是很容易。但幸运的是Microsoft已经这样做了,如果你安装了当前的Microsoft Office,你可以在OMML2MML.XSL的Microsoft Office程序目录中找到这个文件%ProgramFiles%。如果您没有找到它,请进行网络研究以获得它。
因此,如果我们知道这一切,我们可以从OMML获取XWPFDocument,将其转换为MathML然后保存以供以后使用。
我的例子将找到的公式作为MathML存储在ArrayList的字符串中。您还应该能够在数据库中存储此字符串。
该示例需要ooxml-schemas-1.3.jar中提到的完整https://poi.apache.org/faq.html#faq-N10025。这是因为它使用CTOMath,而poi-ooxml-schemas jar没有附带。
Word文档:
Java代码&#x