lucene-NGram中文分词

NGram(综合了单词切分和二分法)

package busetoken;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.ngram.NGramTokenizer;

public class UseN {

 /**
  * @param args
  */
 public static void main(String[] args) {
  String s="编码规范从根本上解决了程序维护员的难题;规范的编码阅读和理解起来更容易,也可以快速的不费力气的借鉴别人的编码。对将来维护你编码的人来说,你的编码越优化,他们就越喜欢你的编码,理解起来也就越快。";
  StringReader sr=new StringReader(s);
  
  NGramTokenizer cjk=new NGramTokenizer(sr);
     Token t=null;
    
     try {
   while ((t=cjk.next())!=null){
    System.out.print(t.termText()+"|");
   }
  } catch (IOException e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  } 
  // TODO Auto-generated method stub

 }

}

 

效果如下:

 

编|码|规|范|从|根|本|上|解|决|了|程|序|维|护|员|的|难|题|;|规|范|的|编|码|阅|读|和|理|解|起|来|更|容|易|,|也|可|以|快|速|的|不|费|力|气|的|借|鉴|别|人|的|编|码|。|对|将|来|维|护|你|编|码|的|人|来|说|,|你|的|编|码|越|优|化|,|他|们|就|越|喜|欢|你|的|编|码|,|理|解|起|来|也|就|越|快|。|编码|码规|规范|范从|从根|根本|本上|上解|解决|决了|了程|程序|序维|维护|护员|员的|的难|难题|题;|;规|规范|范的|的编|编码|码阅|阅读|读和|和理|理解|解起|起来|来更|更容|容易|易,|,也|也可|可以|以快|快速|速的|的不|不费|费力|力气|气的|的借|借鉴|鉴别|别人|人的|的编|编码|码。|。对|对将|将来|来维|维护|护你|你编|编码|码的|的人|人来|来说|说,|,你|你的|的编|编码|码越|越优|优化|化,|,他|他们|们就|就越|越喜|喜欢|欢你|你的|的编|编码|码,|,理|理解|解起|起来|来也|也就|就越|越快|快。|

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值