自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Lucene in action 笔记 case study

一. Nutch作为用lucene实现的开源search engine怎么使用lucene的了.Nutch用了许多个的lucene indexes放在不同的server上, 因为是面对Web-scale的, document数目在1-10billion量级, 非常的多, 必须用许多机器同时去进行index和search操作. 而且在query的时候需要快速反应, 不能因为某个server

2009-12-24 11:03:00 1012

原创 Lucene in action 笔记 analysis篇

Analysis, in Lucene, is the process of converting field text into its most fundamental indexed representation, terms. 这个分析的步骤不一定的, 一般会包含如下:extracting words, discarding punctuation, removing accent

2009-12-07 17:21:00 1921

原创 Lucene in action 笔记 search篇

一. 用lucene怎么完成search1. 创建IndexSearcherIndexSearcher searcher = new IndexSearcher(directory);2. 生成需要搜索的词Term t = new Term("subject", "ant");3. 创建查询Query query = new TermQuery(t);4. search

2009-12-04 11:06:00 1052

原创 Lucene in action 笔记 index篇

一. Index之前要做什么1. 将要index的内容转化为文本你要处理的文件可能是PDF, word, html, OK通通转化成文本, lucene只能处理文本2.分析文本在index之前, 必须对文本做一系列的分析, 对文本的token化, 就是分词. 然后滤掉一些没有区分度的词, 如stop word这个地方涉及语言相关性. 不同语言的处理会不同. 英文还要处理大小写,

2009-12-02 15:47:00 3063

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除