lucene 的分析器(analyzer)与分词器(tokenizer)和过滤器(tokenfilter)

31 篇文章 1 订阅
9 篇文章 1 订阅

1〉analyzer主要包含分词器跟过滤器,他的功能就是:将分词器跟分析器进行合理的组合,使之产生对文本分词和过滤效果。因此,分析器使用分词和过滤器构成一个管道,文本在“滤过”这个管道之后,就成为可以进入索引的最小单位。 
2〉tokenizer主要用于对文本资源进行切分,将文本规则切分为一个个可以进入索引的最小单元 
3〉tokenfilter主要对分词器切分的最小单位进入索引进行预处理,如:大写转小写,复数转单数,也可以复杂(根据语义改写拼写错误的单词) 

附上lucene的部分类源码以讲解: 

 

Java代码   收藏代码
  1. public abstract TokenStream tokenStream(String fieldName, Reader reader);//该抽象为子分析器扩展,后面会在说到  
  2.   
  3.   public TokenStream reusableTokenStream(String fieldName, Reader reader) throws IOException {  
  4.     return tokenStream(fieldName, reader);  
  5.   }//这个是后来发行版本添加的,主要用途是:创建一个TokenStream,为了同一个线程重复使用,节省时间  
  6.   
  7.   private CloseableThreadLocal tokenStreams = new CloseableThreadLocal();// 利用ThreadLocal 来达到在同一个线程重复使用。 这种应用很普遍,例如hibernate的session也是这种情况  
  8.   
  9.   protected Object getPreviousTokenStream() {  
  10.     try {  
  11.       return tokenStreams.get();  
  12.     } catch (NullPointerException npe) {  
  13.       if (tokenStreams == null) {  
  14.         throw new AlreadyClosedException("this Analyzer is closed");  
  15.       } else {  
  16.         throw npe;  
  17.       }  
  18.     }  
  19.   }  
  20.   
  21.   protected void setPreviousTokenStream(Object obj) {  
  22.     try {  
  23.       tokenStreams.set(obj);  
  24.     } catch (NullPointerException npe) {  
  25.       if (tokenStreams == null) {  
  26.         throw new AlreadyClosedException("this Analyzer is closed");  
  27.       } else {  
  28.         throw npe;  
  29.       }  
  30.     }  
  31.   }  
  32.   
  33.   public int getPositionIncrementGap(String fieldName)  
  34.   {  
  35.     return 0;  
  36.   }  
  37.   
  38.   public void close() {  
  39.     tokenStreams.close();  
  40.     tokenStreams = null;  
  41.   }  



Java代码   收藏代码
  1. public TokenStream tokenStream(String fieldName, Reader reader) {  
  2.     StandardTokenizer tokenStream = new StandardTokenizer(reader, replaceInvalidAcronym);  
  3.     tokenStream.setMaxTokenLength(maxTokenLength);  
  4.     TokenStream result = new StandardFilter(tokenStream);  
  5.     result = new LowerCaseFilter(result);  
  6.     result = new StopFilter(result, stopSet);  
  7.     return result;  
  8.   }  


StandardAnalyzer提供的实现,可以看到很简单,就是组合了分词跟过滤器,首先实例了StandardTokenizer(),然后获得了tokenStream,将他传入过滤器,在这样的过程中,result没有发生任何改变,真正发生改变的是在建立索引或者搜索的时候,继续往下看, 

Java代码   收藏代码
  1. public StandardTokenizer(Reader input, boolean replaceInvalidAcronym) {  
  2.     this.replaceInvalidAcronym = replaceInvalidAcronym;  
  3.     this.input = input;  
  4.     this.scanner = new StandardTokenizerImpl(input);  
  5.   }  



StandardTokenizerImpl的构造方法: 

Java代码   收藏代码
  1. StandardTokenizerImpl(java.io.Reader in) {  
  2.     this.zzReader = in;  
  3.   }  



StartdFilter的构造方法: 

Java代码   收藏代码
  1. public StandardFilter(TokenStream in) {  
  2.     super(in);  
  3.   }  



当建立索引或者搜索的时候,会调用由tokenStream方法返回的TokenStream的next()方法,也是这个时候真正的分词和过滤就开始了。 
接着看,当第一调用next()方法时候,首先应该进入StopFilter的next,因为result = new StopFilter(result, stopSet); 

Java代码   收藏代码
  1. public final Token next(final Token reusableToken) throws IOException {  
  2.     assert reusableToken != null;  
  3.     // return the first non-stop word found  
  4.     int skippedPositions = 0;  
  5.     for (Token nextToken = input.next(reusableToken); nextToken != null; nextToken = input.next(reusableToken)) {  
  6.       if (!stopWords.contains(nextToken.termBuffer(), 0, nextToken.termLength())) {  
  7.         if (enablePositionIncrements) {  
  8.           nextToken.setPositionIncrement(nextToken.getPositionIncrement() + skippedPositions);  
  9.         }  
  10.         return nextToken;  
  11.       }  
  12.       skippedPositions += nextToken.getPositionIncrement();  
  13.     }  
  14.     // reached EOS -- return null  
  15.     return null;  
  16.   }  


在这里是调用input的next(),这个input是在初始化stopFilter时进行的,其实input初始化操作也就是也就是把以参数方式传入的result给input,这个result是流经上层的过滤器过来的,回过来看看吧 

Java代码   收藏代码
  1. StandardTokenizer tokenStream = new StandardTokenizer(reader, replaceInvalidAcronym);  
  2.     tokenStream.setMaxTokenLength(maxTokenLength);  
  3.     TokenStream result = new StandardFilter(tokenStream);  
  4.     result = new LowerCaseFilter(result);  
  5.     result = new StopFilter(result, stopSet);  


是LowerCaseFilter, 其实在LowerCaseFilter中,也是按照同样的道理,这样由底层往上层追溯,然后再向下层流,这也是lucene的架构经典之处。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值