1.默认分析器:
@Test
//分析器
public void testTokenStream() throws IOException {
//1.创建一个Analyzer下面的StandardAnalyzer对象
Analyzer analyzer=new StandardAnalyzer();
//2.使用分析器对象的tokenStream的方法获得一个TokenStream对象
TokenStream tokenStream = analyzer.tokenStream("", "How much you I love you");
//3.向TokenStream对象设置一个引用,相当于一个指针tokenStream.reset();
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
//4.调用TokenStream对象的reset方法(如果不调用,会出现异常)
tokenStream.reset();
//5.遍历TokenStream对象
while(tokenStream.incrementToken()){
System.out.println(charTermAttribute.toString());
}
//6.关闭
tokenStream.close();
}
[注意]:如果解析中文的话,它会分割成一个字一个字,显然不符合中文习惯。
所以解析中文时,要加入中文的jar
2.使用IKAnalyzer
r包。**
记事本的编码格式是 :utf-8+BOM
所以修改代码:
所以我们现在需要删掉原来的索引库。
修改代码,重新运行创建。
解析中文:
这是我们原来的:
我们可以发现默认索引库这里采用了标准解析器。