Lucene学习笔记(4)将M$Word转为HTML


======================================================
注:本文源代码点此下载
======================================================

lucene学习笔记(4)将m$word转为html

后面是一些关于luncene外围的工具,这是其中之一。

majix利用jacob,将m$word转换为xml,进而转换为html.

试了一下,对英语文档没问题,对汉语的却转换成了乱码,估计是那些地方需要设置一下。

majix中用了一个tool叫jade(如果你认为是反编译的那个jad就错了,hehe),是一个dsssl的实现,可以做xml、rtf、tex、mif、sgml的转换。

jacob既然是java与com之间的桥梁,则可以乐观地预测m$的所有文档,都有可以转换了,至少抽取其内容应该问题不大吧。

突然感觉很迷惘,让majix彻底把我搞糊涂了。majix本身很简单,可其中用了不少xml技术(也叫技术吧),一时搞不清它们之间的关系了。看来,虽然自觉xml比较熟悉了,其实还是欠火侯,抽空再去ibm学习学习了

引自竹笋炒肉


======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值