- 博客(4)
- 资源 (14)
- 收藏
- 关注
原创 lucene 索引非txt文档 (pdf word rtf html xml)
<br />搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。<br />索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下:<br />写在所有之前:下边所有介绍中的is参数都是inputStream,就是被索引的文件。<br />word文档:<br />把word文档转换成纯文本的开源工程可以使用:POI 或者
2010-08-01 19:13:00 511
转载 lucene-索引HTML文档
<br />1、大部分WEB文档采用HTML格式。<br />2、本例用如下HTML文档<br /><html><br /> <head><br /> <title><br /> Laptop power supplies are avaliable in First class only<br /> </title><br /> </head><br /> <body><br /> <h1>code,write,fly</h1><br />
2010-08-01 19:05:00 516
转载 nekohtml的简单使用
<br />做了一段时间的网页解析的工作,有了些体会,写出来和大家分享。<br /> 现在流行的HTML解析工具主要有HTML Parser和nekohtml,我就不细介绍他们了,有兴趣的话可以自己google。个人比较喜欢用nekohtml+xerces,xerces实际上也是一个XML的解析包,nekohtml建筑在其之上,两者搭配后可将网页解析成一颗DOM树,这样我们对于网页的操作就转化为对这棵树的操作了,而这正是它和HTML Parser的不同之处,也是我喜欢它的原因。<br />
2010-08-01 19:05:00 427
原创 Lucene 建立索引和搜索
<br />package testLucene;<br />import java.io.File;<br />import java.io.FileReader;<br />import java.io.Reader;<br />import java.util.Date;<br />import org.apache.lucene.analysis.Analyzer;<br />import org.apache.lucene.analysis.standard.StandardAnalyzer;<b
2010-08-01 13:50:00 588
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人