Lucene九（分词）

最新推荐文章于 2023-12-08 16:06:51 发布

IT进行曲

最新推荐文章于 2023-12-08 16:06:51 发布

阅读量382

点赞数

分类专栏： Lucene&Solr

本文链接：https://blog.csdn.net/u013365786/article/details/47204057

版权

Lucene&Solr 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Lucene3.5中有这四大类分词器：SimpleAnalyzer、StopAnalyzer、WhiltespaceAnalyzer、StandardAnalyzer。

分词流程：

Tokenizer：

TokenFilter：

TokenStream中保存的信息如下：

了解了分词流程和TokenStream之后，可以通过代码来查看分词信息：

package cn.liuys.lucene.util;
import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

public class AnalyzerUtil {

/**
* @param str
* @param a
* 显示分词详细信息
*/
public static void displayAllTokenInfo(String str,Analyzer a){
TokenStream stream = a.tokenStream("content", new StringReader(str));
//位置增量
PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
//偏移量
OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
//词汇单元
CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
//类型
TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
try {
for(;stream.incrementToken();){
System.out.print(pia.getPositionIncrement()+":");
System.out.print(cta+"["+oa.startOffset()+"-"+oa.endOffset()+"]--->"+ta.type()+"\n");
}
} catch (IOException e) {
e.printStackTrace();
}
}

}

package cn.liuys.lucene.test;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.util.Version;
import org.junit.Test;

import cn.liuys.lucene.util.AnalyzerUtil;

public class TestAnalyzer {

@Test
public void test03(){
Analyzer a1 = new StandardAnalyzer(Version.LUCENE_35);
Analyzer a2 = new StopAnalyzer(Version.LUCENE_35);
Analyzer a3 = new SimpleAnalyzer(Version.LUCENE_35);
Analyzer a4 = new WhitespaceAnalyzer(Version.LUCENE_35);

String str = "how are you thank you";
AnalyzerUtil.displayAllTokenInfo(str, a1);
System.out.println("-------------------------------------");
AnalyzerUtil.displayAllTokenInfo(str, a2);
System.out.println("-------------------------------------");
AnalyzerUtil.displayAllTokenInfo(str, a3);
System.out.println("-------------------------------------");
AnalyzerUtil.displayAllTokenInfo(str, a4);
}
}

IT进行曲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lucene九（分词）

Lucene3.5中有这四大类分词器：SimpleAnalyzer、StopAnalyzer、WhiltespaceAnalyzer、StandardAnalyzer。分词流程：Tokenizer：TokenFilter：TokenStream中保存的信息如下：了解了分词流程和TokenStream之后，可以通过代码来查看分词信息：packa
复制链接

扫一扫