![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索引擎
文章平均质量分 81
moxuansheng
有限的生命,做有意义的事!
展开
-
SWISH-E搜索引擎用法
<! /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-parent:""; mso-padding-al原创 2009-02-03 11:29:00 · 1780 阅读 · 0 评论 -
Lucene2.9.1使用小结
【++yong的博客地址:http://blog.csdn.net/qjyong】开源全文搜索工具包Lucene2.9.1的使用。1. 搭建Lucene的开发环境:在classpath中添加lucene-core-2.9.1.jar包 2. 全文搜索的两个工作: 建立索引文件,搜索索引. 3. Lucene的索引文件逻辑结构 1) 索引(Index)转载 2009-11-26 15:15:00 · 1056 阅读 · 0 评论 -
Jforum中索引模块的分析(2)
在第一部分中主要分析了通过SearchSetting对检索和索引进行控制。本部分主要对于搜索部分LuceneSearch类进行一个分析和阐述。1. LuceneSearch类LuceneSearch类主要完成Post的检索功能,通过分析用户输入的搜索参数,反正相关的结果。public SearchResult search(SearchArgs args) { return原创 2009-11-21 22:05:00 · 900 阅读 · 1 评论 -
swish-e搜索引擎,代码分析(9)
在前面的内容中,通过对于词条的分析,排序、压缩等处理后,词条ENTRY目前是按照每个metaID一个LOCATION的结构进行存放。从本节开始,逐渐阐述索引文件的写入过程。2.6索引文件写入过程索引文件的写入主要是分为写入头部header过程和词条信息过程两部分。2.6.1 write_header头部写入过程 先通过DB_InitWriteHeader_Native将header原创 2009-10-18 20:51:00 · 521 阅读 · 0 评论 -
nutch1.0 “Invalid first character”异常
根据http://lucene.apache.org/nutch/tutorial8.html中的tutorial,下载nutch-1.0,cygwin等进行配置。在使用bin/nutch crawl urls -dir crawl -depth 3 -topN 50进行抓取的时候,出现了Invalid first character,google到一些文章,说可能是craw-urlfil原创 2009-10-15 14:04:00 · 859 阅读 · 0 评论 -
swish-e搜索引擎,源代码分析(7)
前面部分对于词条进行了压缩等,从这部分开始分析索引文件的写入。2.5 索引文件写入2.5.1 write_index_file函数分析基本流程为:通过 coalesce_all_word_locations函数将词条按照metaID和filenum进行排序;通过sort_words对于词条进行排序;write_header写入索引文件头部;write_index写入原创 2009-10-13 23:34:00 · 672 阅读 · 0 评论 -
swish-e搜索引擎,代码分析(8)
2.5.4 coalesce_word_locations函数分析coalesce_word_locations函数对于LOCATION的信息进行了合并,将同一个metaID的信息都放在了一个LOCATION中,不同的filenum,只是存放了差值。在index.c L 2847开始,循环遍历每个LOCATION,进行词条信息的合并。 /* Run on all location原创 2009-10-14 22:37:00 · 519 阅读 · 0 评论 -
swish-e搜索引擎, 源代码分析(6)
在前面的部分中,对于swish-e读取文件内容,将分析所得的词条加入到hash表中的过程。当所有的词条处理完成以后,此时在sw->hashentries[VERYBIGHASHSIZE]表中则存放了所有的词条。此时需要对于这些词条进行一定的压缩处理,才能最后写入到索引文件中。本节开始,对于词条信息的压缩过程进行阐述。在index.c L1200开始进行Compress the en原创 2009-10-11 20:01:00 · 706 阅读 · 0 评论 -
swish-e代码分析,索引部分(5)
在前一节中通过getentry函数的处理,在hash表中查找是否含有该词条,如果没有,则初始化一个词条entry变量。然后通过addentry进行处理。 2.3.4 addentry函数分析 加入词条到hash表的过程主要分为两部分:已有词条、新词条。 Normal 0 7.8 磅 0 2 false false原创 2009-10-08 22:19:00 · 552 阅读 · 0 评论 -
swish-e代码分析,索引部分(1)
一直想将swish-e的代码分析进行整理,趁着国庆,发布其中的内容,尽快地整理好。用的是swish-e 2.4.7版本。先对于SWISH-E搜索引擎中的主要数据结构进行介绍。1. 索引相关的主要数据结构1.1 SWISH-E定义了SWISH结构对于索引,搜索过程进行处理,其中有MOD_Index结构 struct MOD_Index{原创 2009-10-02 00:41:00 · 702 阅读 · 0 评论 -
swish-e代码分析,索引部分(3)
上一节中对于索引之前的初始化工作进行了分析,从这节开始,对于索引过程进行阐述。 2.2.3 indexPath索引文件过程 Normal 0 7.8 磅 0 2 false false false原创 2009-10-06 20:18:00 · 542 阅读 · 0 评论 -
Swish-e搜索引擎中的数据压缩算法(二)
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Font De原创 2009-02-16 13:11:00 · 798 阅读 · 0 评论 -
Swish-e搜索引擎中的数据压缩算法(一)
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <object class原创 2009-02-12 09:53:00 · 777 阅读 · 0 评论 -
key/data pair与索引文件
Normal 0 7.8 磅 0 2 false false false MicrosoftInternetExplorer4 <!-- /* Font原创 2009-12-26 23:00:00 · 668 阅读 · 0 评论