lucene--分词器的分析

  1. /** 
  2.  * SimpleAnalyzer  这个分词是一段一段话进行分 
  3.  * StandardAnalyzer 标准分词拿来分中文和ChineseAnalyzer一样的效果 
  4.  ☆PerFieldAnalyzerWrapper  这个很有意思,可以封装很多分词方式,还可以于先设置field用那个分词分!牛 
  5.  * CJKAnalyzer  这个分词方式是正向退一分词(二分法分词),同一个字会和它的左边和右边组合成一个次,每个人出现两次,除了首字和末字 
  6.  * ChineseAnalyzer  这个是专业的中文分词器,一个一个字分 
  7.  * BrazilianAnalyzer 巴西语言分词 
  8.  * CzechAnalyzer 捷克语言分词 
  9.  * DutchAnalyzer 荷兰语言分词 
  10.  * FrenchAnalyzer 法国语言分词 
  11.  * GermanAnalyzer 德国语言分词 
  12.  * GreekAnalyzer 希腊语言分词 
  13.  * RussianAnalyzer 俄罗斯语言分词 
  14.  * ThaiAnalyzer 泰国语言分词 
  15.  * KeywordAnalyzer "Tokenizes" the entire stream as a single token. This is useful for data like zip codes, ids, and some product names. 
  16.  * PatternAnalyzer api讲这个分词方式很快,它是放在内存里面的 
  17.  * SnowballAnalyzer 经典分词用具 主要支持欧洲语言 
  18.  * StopAnalyzer 被忽略的词的分词器 
  19.  * WhitespaceAnalyzer 空格分词 
  20.  * */  
  21. public class AnalyzerTest {  
  22.     public static void main(String[] args) throws IOException {  
  23.         String content = "中国人打阿斯顿看了附件阿斯利康的附件 就阿拉山口发动机";  
  24.         StringReader reader = new StringReader(content);  
  25. //      Analyzer analyzer = new org.apache.lucene.analysis.snowball.SnowballAnalyzer("English");  
  26.         Analyzer analyzer = new StandardAnalyzer();  
  27.         TokenStream ts = analyzer.tokenStream("", reader);  
  28.         Token t = null;  
  29.         while((t = ts.next()) != null){  
  30.             System.out.println(t.termText()+"---"+new String(t.termBuffer(),0,t.termLength())+"----"+t.termLength());  
  31.         }  
  32.     }  
  33. }  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值