Lucene
文章平均质量分 53
devfan
这个作者很懒,什么都没留下…
展开
-
lucene文件格式分析
segment每个segment代表lucene一个完整的索引段。通常一个索引中包含了多个segment。每个segment都有统一的前缀,前缀名由Document的数量转成36进制后,在前面加“_”而构成的。通常一个完整索引中,有且只有一个没有后缀名的segment文件,它记录了当前索引中所有的segment的信息。 .fnm此文件包含了Document中的所有field名称 .原创 2009-08-11 21:24:00 · 911 阅读 · 0 评论 -
JE分词组件,词典编辑方法
JE词典位置使用Winrar打开je-analysis-1.5.1.jar文件 analysis->data目录下 编辑词典文件词典文件为Txt文件,主要词典文件为sDict.txt,可对词典文件直接使用记事本编辑,一个词占用一行。编辑后保存退出记事本程序后Winrar会提示文件已经被修改是否在压缩文件中更新。原创 2009-08-12 14:47:00 · 581 阅读 · 0 评论 -
中文分词 JE-Analysis 组件使用外部自定义词典
JE-Analysis分词组件的一大特色就是可以添加词以及使用词典以扩张起自己带的词库,使得分词更加准确.下面就是使用外部词典代码:import java.io.IOException;import jeasy.analysis.MMAnalyzer;import java.io.FileNotFoundException;import java.io.FileReader;pu原创 2009-07-04 19:58:00 · 2522 阅读 · 1 评论 -
关于Lucene SandBox包的下载问题
学习Lucene中我在网络上查阅的关于Lucene方面的内容,其中有些学习资料表述( lucene包括core和sandbox两部分,其中core是lucene稳定的核心部分,sandbox包含了一些附加功能,例如highlighter、各种分析器。),其中core包可以从http://lucene.apache.org/很容易找到,但sandbox确找了很久都没有结果,最后发现http://lu原创 2009-07-09 21:21:00 · 1535 阅读 · 0 评论 -
Lucene SandBox包中highlighter(高亮显示搜索结果包)存在的问题
highlighter包从官方网站下载编译就有几个.java文件错误,估计需要完全编译整个Sandbox,而我只编译了highlighter使得有些问题,但highighter.java的getBestTextFragments()始终有问题,而且在网络上查到lucene-highlighter可以很好的解决英文高亮的问题,但是对中文分词算法的高亮就会存在严重的问题。比如使用CJ原创 2009-07-11 06:48:00 · 1517 阅读 · 0 评论