给Lucene加入性能更好的中文分词1 的一点改动

给Lucene加入性能更好的中文分词1(原创) 

        前一段时间看到了这http://blog.donews.com/windshow/archive/2005/09/23/564655.aspx文章,觉得写得非常的不错,但使用的时候发现了一个小问题,后来留了这样一帖

FileIO.readerToString(reader);
中的FileIo类是怎么写的阿?
shuangpingli@126.com
有知道的告诉我一声,非常感谢阿!

后来有几个朋友给我发邮件问我解决了没有,现在我把解决办法与大家分享,我是自己写了一个方法来转换了一下

代码如下

   //used by conver Reader to String
   public String readerToString(Reader reader)throws IOException{
    BufferedReader br = new BufferedReader(reader);
    String ttt = null;
    String tttt = null;
    while((ttt=br.readLine())!=null){
       tttt += ttt;
    }
    return tttt;
   }

   /** Filters LowerCaseTokenizer with StopFilter. */
   public TokenStream tokenStream(String fieldName, Reader reader){
    try{
      ICTCLAS splitWord = ICTCLAS.getInstance();
      String inputString = this.readerToString(reader);//FileIO.readerToString(reader);
      String resultString = splitWord.paragraphProcess(inputString);
      System.out.println("spliteResult"+resultString);
      return new StopFilter(new LowerCaseTokenizer(new StringReader(resultString)),stopWords);
      }
    catch (Exception e){
     System.out.println("转换出错");
     return null;
    }
   }

添加中文分词工程下载:  唉为什么不能上传文件呐!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值