最近在做问答系统,自己在园子里面找了下资料,觉得不错,自己是菜鸟原创不行,废话不多说了,送上资料。
第一个是关于Lucene的分词技术
目录如下:
目录
第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
第四步:将得到的词(Term)传给索引组件(Indexer)。
3. 合并相同的词(Term)成为文档倒排(Posting List)链表。
2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。
2. 判断Term之间的关系从而得到文档相关性的过程,也即向量空间模型的算法(VSM)。
4.1.3. 域(Field)的数据信息(.fdt,.fdx)
4.1.3. 词向量(Term Vector)的数据信息(.tvx,.tvd,.tvf)
4.1、得到当前线程对应的文档集处理对象(DocumentsWriterThreadState)
4.2、用得到的文档集处理对象(DocumentsWriterThreadState)处理文档
4.3、用DocumentsWriter.finishDocument结束本次文档添加
5、DocumentsWriter对CharBlockPool,ByteBlockPool,IntBlockPool的缓存管理
2.1.2、通过segment_N文件中保存的各个段的信息打开各个段
2.4.1、创建Weight对象树,计算Term Weight
第八章:Lucene的查询语法,JavaCC及QueryParser
5.6、PayloadTermQuery及PayloadNearQuery
6.4、FieldCacheRangeFilter<T>及FieldCacheTermsFilter
6.5、MultiTermQueryWrapperFilter<Q>
6、不同的Analyzer就是组合不同的Tokenizer和TokenFilter得到最后的TokenStream
7.1、StandardTokenizerImpl.jflex
问题一:为什么能搜的到“中华 AND 共和国”却搜不到“中华共和国”?
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。
这个转载至:http://www.cnblogs.com/forfuture1978/archive/2010/06/13/1757479.html
第二个关于HubbleDotNet全文检索分词的技术:
目录如下:
HubbleDotNet 和 Lucene.net 性能对比测试
HubbleDotNet 和 Lucene.Net 匹配相关度的比较
安装和升级
为数据库现有表或视图建立全文索引(一) Append Only 模式
为数据库现有表或视图建立全文索引(二) Updatable 模式
为数据库现有表或视图建立全文索引(三) 多表关联全文索引模式
HubbleDotNet开源全文搜索数据库项目--查询方法汇总
组合搜索*
Tokenized字段和Untokenized 字段组合搜索*
HubbleDotNet 分布式检索--异步通讯模式的调用方法
测试报告
注:
* 为还没有完成的文档
** 为功能目前尚未实现
原文链接如下:http://www.cnblogs.com/eaglet/archive/2010/04/07/1706305.html
这个没有文档下载,我过段时间整理下 发个word什么的给大家下载,好坐公交的时候看,呵呵。