------------------------------------------2013.7.26------------------------------------------
近地面大气温度31°C,天气晴。
昨天了解到java有一个jacob开源库可以将word转换为html格式。
【猜想】word中的图表信息会在html中转换为相似的table等标签进行存储。
如果猜想正确的话,便可以分析提取html文档中的有效信息,进一步生成规定格式的xml文档。
【下午的工作】
上午的猜想完全正确。
在浏览了一些关于jacob的资料之后,成功的引用jacob库将包含表格的word文档转化成了html及txt格式。
特别感谢ID=捂汗县长 文章中的资料。
参考资料:jacob 实现Office Word文件格式转换..:http://blog.csdn.net/laoyaotask/article/details/9391435
期间遇到了无法读写源word文档的问题,是由该源文件为只读格式引起的,更改之后问题解决。
【下步计划】
因为转化成的html文档也只是单纯的文本,而不存在标签,所以在比较之后决定直接使用txt格式的文档使用自然语言处理(NLP)对其进行数据的挖掘。
------------------------------------------2013.7.31------