2010年08月_王景远

08月 07月

原创 lucene 索引非txt文档 (pdf word rtf html xml)

搜索要首先要索引，索引的话最简单的方式是索引txt文件，上文已经介绍了。这里介绍一下一些其它格式的文档的索引，例如ms word ,pdf ,rtf等。 索引方法：就是先把各种文档先转化成纯文本再索引，所以关键在转换上。幸好java世界中有太多的开源工程，很多都可以拿来直接使用。下边分别介绍一下： 写在所有之前：下边所有介绍中的is参数都是inputStream，就是被索引的文件。 word文档： 把word文档转换成纯文本的开源工程可以使用：POI 或者

2010-08-01 19:13:00 511

转载 lucene-索引HTML文档

1、大部分WEB文档采用HTML格式。 2、本例用如下HTML文档 <html> <head> <title> Laptop power supplies are avaliable in First class only </title> </head> <body> <h1>code,write,fly</h1>

2010-08-01 19:05:00 516

转载 nekohtml的简单使用

做了一段时间的网页解析的工作，有了些体会，写出来和大家分享。 现在流行的HTML解析工具主要有HTML Parser和nekohtml，我就不细介绍他们了，有兴趣的话可以自己google。个人比较喜欢用nekohtml+xerces，xerces实际上也是一个XML的解析包，nekohtml建筑在其之上，两者搭配后可将网页解析成一颗DOM树，这样我们对于网页的操作就转化为对这棵树的操作了，而这正是它和HTML Parser的不同之处，也是我喜欢它的原因。

2010-08-01 19:05:00 427

原创 Lucene 建立索引和搜索

package testLucene; import java.io.File; import java.io.FileReader; import java.io.Reader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer;<b

2010-08-01 13:50:00 588