![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 76
redez
这个作者很懒,什么都没留下…
展开
-
Lucene Study(1)
lucene简介 lucene在jakarta项目中的发布主页:http://jakarta.apache.org/lucene/docs/index.html。以下主要针对windows用户,其它用户请在上面的地址中查找相关下载。 lucene的.jar包的下载(包括.jar和一个范例demo):http://apache.oregonstate.edu/jakarta/lucene原创 2005-10-29 22:16:00 · 3222 阅读 · 0 评论 -
简单的二元切分词程序
主要针对应用规模比较小不需要词表支持的分词代码为:import java.util.*; public class Segment2{ char[] stopWords = new char[] //这些词不予考虑在分词时候 { 。, ,, ;, :, “, ”, (, ), !, ?, ◎, #, ¥, %,原创 2005-10-30 21:55:00 · 3390 阅读 · 0 评论 -
Lucene基础排序算法
公式为:score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t)score_d: Document(d) 的得分sum_t: Term(t) 的总和tf_q: 查询中 t 的频度的平方根tf_q: d 中 t 的频度的平方根idf_t: log(numDocs/docFreq_t + 1) + 1.0numDocs: 索引中原创 2005-11-17 23:49:00 · 4788 阅读 · 0 评论 -
HTMLParser 使用
最近在研究lucene,主要做ftp搜索和网页的站内搜索。ftp搜索比较好做,主流的FTP有两种一种是IIS的一种是Server-U的.真对这两种FTP分别进行分析就可以得到FTP资源的文件名和路径及大小和日期然后对其进行索引就可以了,比较简单。网页检索可不像ftp那样了,我试着用lucene自带的htmlparser,解析纯英文的网页没有问题,可解析中文的网页时有时会遇到编码问题。郁闷。。。So原创 2005-11-21 23:36:00 · 14631 阅读 · 8 评论 -
Lucene包解读之util,store
校内搜索的底层索引我是用它做的,为什么速度这么快腻,以前只是用它的查询接口,没有深入到核心去看它的索引文件结构,今天分析了以下它的源代码主要是store包和util包这两个与文件最为密切的包。包org/apache/lucene/util包含一些数据结构如BitVector 和PriorityQueue,还有StringHelper类主要的用途是判断两个字符串是否相等。抽象类PriorityQue原创 2005-12-21 08:26:00 · 3686 阅读 · 0 评论