分词器的作用:分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。
到目前为止呢,分词器没有办法做到完全的符合人们的要求。
和我们有关的分词器有英文的和中文的
英文的分词器过程:输入文本-关键词切分-去停用词-形态还原-转为小写
中文的分词器分为:
单子分词 例:中国人 分成中,国,人
二分法人词:例中国人:中国,国人
词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,现在用的是极易分词和庖丁分词。
停用词:不影响语意的词。
网上有很多说分词器效果的,我在这里就不进行多说了,给大写一个方法来来看一下效果
public static void main(String[] args) throws IOException {
// TODO Auto-generated method stub
Analyzer analyzer = new StandardAnalyzer();
TokenStream tokenStream = analyzer.reusableTokenStream(null,
new StringReader("wang jun long"));
while (true) {
org.apache.lucene.analysis.Token token = tokenStream.next();
if (null == token) {
break;
}
System.out.println(token.toString());
}
}
WhitespaceAnalyzer(),
SimpleAnalyzer(),
StopAnalyzer(),
StandardAnalyzer(),
MIK_CAnalyzer(), //需要引入IKAnalyzer.jar
ChineseAnalyzer(),
CJKAnalyzer(),
ThesaurusAnalyzer() //需要引入Thesaurus.jar