【学习档案】word文档转为XML格式

通过学习和实践,使用Java结合Jacob库成功将包含表格的Word文档转换为HTML和TXT格式。针对HTML文档中缺乏结构化的限制,决定采用TXT格式并利用自然语言处理进行数据挖掘。后续实现了批量转换Word文档为TXT的功能,为进一步转化为XML做准备,但项目因学习计划调整暂时终止。
摘要由CSDN通过智能技术生成

------------------------------------------2013.7.26------------------------------------------

近地面大气温度31°C,天气晴。

昨天了解到java有一个jacob开源库可以将word转换为html格式。

【猜想】word中的图表信息会在html中转换为相似的table等标签进行存储。

如果猜想正确的话,便可以分析提取html文档中的有效信息,进一步生成规定格式的xml文档。


【下午的工作】

上午的猜想完全正确。

在浏览了一些关于jacob的资料之后,成功的引用jacob库将包含表格的word文档转化成了html及txt格式。

特别感谢ID=捂汗县长 文章中的资料。

参考资料:jacob 实现Office Word文件格式转换..:http://blog.csdn.net/laoyaotask/article/details/9391435

期间遇到了无法读写源word文档的问题,是由该源文件为只读格式引起的,更改之后问题解决。


【下步计划】

因为转化成的html文档也只是单纯的文本,而不存在标签,所以在比较之后决定直接使用txt格式的文档使用自然语言处理(NLP)对其进行数据的挖掘。



------------------------------------------2013.7.31------

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值