======================================================
注:本文源代码点此下载
======================================================
lucene学习笔记(4)将m$word转为html
后面是一些关于luncene外围的工具,这是其中之一。
majix利用jacob,将m$word转换为xml,进而转换为html.
试了一下,对英语文档没问题,对汉语的却转换成了乱码,估计是那些地方需要设置一下。
majix中用了一个tool叫jade(如果你认为是反编译的那个jad就错了,hehe),是一个dsssl的实现,可以做xml、rtf、tex、mif、sgml的转换。
jacob既然是java与com之间的桥梁,则可以乐观地预测m$的所有文档,都有可以转换了,至少抽取其内容应该问题不大吧。
突然感觉很迷惘,让majix彻底把我搞糊涂了。majix本身很简单,可其中用了不少xml技术(也叫技术吧),一时搞不清它们之间的关系了。看来,虽然自觉xml比较熟悉了,其实还是欠火侯,抽空再去ibm学习学习了
引自竹笋炒肉
======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/