2009年12月_fxjtoday

12月 11月 10月 09月

原创 Lucene in action 笔记 case study

一. Nutch作为用lucene实现的开源search engine怎么使用lucene的了.Nutch用了许多个的lucene indexes放在不同的server上, 因为是面对Web-scale的, document数目在1-10billion量级, 非常的多, 必须用许多机器同时去进行index和search操作. 而且在query的时候需要快速反应, 不能因为某个server

2009-12-24 11:03:00 1012

原创 Lucene in action 笔记 analysis篇

Analysis, in Lucene, is the process of converting field text into its most fundamental indexed representation, terms. 这个分析的步骤不一定的, 一般会包含如下:extracting words, discarding punctuation, removing accent

2009-12-07 17:21:00 1921

原创 Lucene in action 笔记 search篇

一. 用lucene怎么完成search1. 创建IndexSearcherIndexSearcher searcher = new IndexSearcher(directory);2. 生成需要搜索的词Term t = new Term("subject", "ant");3. 创建查询Query query = new TermQuery(t);4. search

2009-12-04 11:06:00 1052

原创 Lucene in action 笔记 index篇

一. Index之前要做什么1. 将要index的内容转化为文本你要处理的文件可能是PDF, word, html, OK通通转化成文本, lucene只能处理文本2.分析文本在index之前, 必须对文本做一系列的分析, 对文本的token化, 就是分词. 然后滤掉一些没有区分度的词, 如stop word这个地方涉及语言相关性. 不同语言的处理会不同. 英文还要处理大小写,

2009-12-02 15:47:00 3063

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人