solr 1.4 的分布式请求过程和拼写检查过程

最新推荐文章于 2024-10-03 07:47:16 发布

源远流长

最新推荐文章于 2024-10-03 07:47:16 发布

阅读量1.2k

点赞数

分类专栏：搜索引擎技术学习笔记文章标签： solr components lucene 正则表达式 null token

技术学习笔记同时被 2 个专栏收录

183 篇文章 0 订阅

订阅专栏

搜索引擎

104 篇文章 0 订阅

订阅专栏

solr 1.4 的分布式请求过程

rb.shards 这里存放了要分布的机器

for( SearchComponent c : components ) {//通知搜索组件准备
c.prepare(rb);
}

while (非结束状态){
// 调用各组件的分布式处理过程
for( SearchComponent c : components ) {
// the next stage is the minimum of what all components report
nextStage = Math.min(nextStage, c.distributedProcess(rb));
}
//上个过程会产生分布式查询，注意只是准备查询数据
//submit all current request tasks at once
for(outgoing:outgoings){//一个outgoing代表一个请求
for(shard:shards){//一个shard代表一个子机
ModifiableSolrParams params = new ModifiableSolrParams(sreq.params);
comm.submit(sreq, shard, params);
}
}
//然后等待返回。如果这个过程中有组件放置额外的请求，就立即退出循环，在外层循环中，利用上面的代码把它发送出去。
//注意，这个函数会返回所有的到子机的请求。通过ShardRequest对象。它代表一类请求的完整结束。
ShardResponse srsp = comm.takeCompletedOrError();
rb.finished.add(srsp.getShardRequest());
for(SearchComponent c : components) {
c.handleResponses(rb, srsp.getShardRequest());
}

//这里的finish stage 表示结束阶段，仅表示一波请求的结束，并不是分布式查询的结束。
for(SearchComponent c : components) {
c.finishStage(rb);
}

//总结：
//1 distributedProcess 确定分布查询
//2 comm.submit 分布式请求查询
//3 对返回数据做处理
//4 阶段结束的处理

//分布式查询组件QueryComponent基本上会走2轮上述过程。
//1，查询子机得到docid
//2，获取doc
}

solr 的拼写检查过程

拼写检查是一个组件SpellCheckComponent
在1.4版本不支持分布式

切词部分，分2种情况
---------------------------
用户的查询 = SPELLCHECK_Q
切词器 getQueryAnalyzer
切词 getTokens
----------------
用户的查询 = rb.getQueryString 或者 CommonParams.Q
queryConverter -- 这里会用到切词
基本是先用正则表达式分段，再用给定切词器切词
Analyzer analyzer = fieldType == null ? new WhitespaceAnalyzer()
: fieldType.getQueryAnalyzer();
--------------------------
把切出来的词(token)，每个
通过下面的过程
IndexReader reader = rb.req.getSearcher().getReader();
SolrSpellChecker.getSuggestions(){
org.apache.lucene.search.spell.SpellChecker spellChecker
//这里会调用lucene的切词组件SpellChecker
String[] suggestions = spellChecker.suggestSimilar(tokenText, (int) Math.max(count, AbstractLuceneSpellChecker.DEFAULT_SUGGESTION_COUNT),
field != null ? reader : null, //workaround LUCENE-1295
field,
onlyMorePopular){
//field,the field of the user index: 如果字段不是null,则建议词被要求出现在该字段（这个会用到 reader）.
}
term = term.createTerm(tokenText);/term = term.createTerm(suggestions[i]);
result.add(token, reader.docFreq(term));
}
得到建议