lucene测试IKAnalyzer分词器和读取txt文件方法

原创 2012年03月27日 10:43:06

package test;


import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

 


/**
 *
 * @author Administrator
 * @测试分词器
 */
public class TestAnalyzer {
  
 

 public static void main(String[] args)throws Exception{
   Analyzer ik=new IKAnalyzer();
  String text2="我们是中国人举行了2008年8月8日北京奥林匹克运动会我们是中国人举行了2008年8月8日北京奥林匹克运动会";
  //读取文件
       // text2=readTxt("D:\\note.txt");
       
        //十词=叠加字符串
  StringBuffer sb=new StringBuffer();
  for(int i=0;i<10;i++){
   sb.append(text2);
  }  
  //分词
  testAanlyzer(ik,sb.toString());
 }
 public static void testAanlyzer (Analyzer analyzer,String text)throws Exception{
  
  long start=System.currentTimeMillis();  
  TokenStream ts=analyzer.tokenStream("content",new StringReader(text));
  CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
  System.out.println("分词效果如下:");
  int i=0;
  while(ts.incrementToken()){
   i++;
   System.out.println(new String(term.buffer(),0,term.length()));
  }
  long usetime=System.currentTimeMillis()-start;
  System.out.println("共分词="+i+",共耗时="+usetime+"毫秒。");
 }
 
   public String readTxt(String path){
    StringBuffer text = new StringBuffer("");
  String tex = null;
  BufferedReader read = null;
  try {
   read = new BufferedReader(new FileReader(path));
   while ((tex = read.readLine()) != null) {
    text.append(tex + "\n");
   }
  } catch (FileNotFoundException e) {
   e.printStackTrace();
  } catch (IOException e) {
   e.printStackTrace();
  } finally {
   if (read != null) {
    try {
     read.close();
    } catch (IOException e) {
     e.printStackTrace();
    }
   }
  }
  //System.out.println(text);
    return text.toString();
   }
}

使用IKAnalyzer分词计算文章关键字并分享几个分词词典

这应该是我第二次写IK中文分词的相关东西了。话说IK真心好用,最开始就用过IK的搜索后来又用它和solr结合使用。     关于IK可以参考下官方文档的介绍,使用配置也有相关的pdf文档。htt...
  • zhjih123
  • zhjih123
  • 2014年04月07日 13:25
  • 1558

使用IKAnalyzer实现中文分词&去除中文停用词

1、简介:IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。这里使用的是IKAnalyzer2012。 2、IK Analyzer 2012特性: (...
  • yeruby
  • yeruby
  • 2014年12月29日 19:12
  • 10175

Lucene 6.0下使用IK分词器

Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类:MyIKTokenizer...
  • napoay
  • napoay
  • 2016年07月14日 18:34
  • 5676

Lucene建立索引 使用IKAnalyzer扩展词库

转载原文:http://blog.163.com/iamlyia0_0/blog/static/50957997201481510100729/ 方案一: 基于配置的词典扩充 项目结构图如...
  • chuntian_feng
  • chuntian_feng
  • 2016年07月10日 14:03
  • 1113

Lucene 实例教程(二)之IKAnalyzer中文分词器

一、前言        前面简单介绍了Lucene,以及如何使用Lucene将索引 写入内存,地址:http://blog.csdn.net/chenghui0317/article/details/...
  • ch656409110
  • ch656409110
  • 2013年08月24日 21:27
  • 22857

lucene---中文分词IKAnalyzer和高亮highlighter的使用

最近lucene已经更新到lucene 3.0版本了 2.X版本的一些用法已经彻底不在支持了。  下面的例子主要是介绍中文分词器IKAnalyzer的使用和Lucene高亮显示。  lucene ...
  • xiaozhu0301
  • xiaozhu0301
  • 2016年06月03日 17:43
  • 743

Lucene 6.0下使用IK分词器

Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类:MyIKTokenizer...
  • duruiqi_fx
  • duruiqi_fx
  • 2016年10月31日 01:48
  • 7562

Apache Solr 4.9 和 IKAnalyzer中文分词配置(上)

Apache solr 4.9 下载地址:http://archive.apache.org/dist/lucene/solr/4.9.0/IKAnalyzer 下载地址:https://code.g...
  • menghuannvxia
  • menghuannvxia
  • 2014年12月17日 17:33
  • 1642

Lucene分词器测试

Lucene分词器测试
  • caicongyang
  • caicongyang
  • 2015年11月02日 22:06
  • 962

使用IKAnalyzer分词计算文章关键字并分享几个分词词典

这应该是我第二次写IK中文分词的相关东西了。话说IK真心好用,最开始就用过IK的搜索后来又用它和solr结合使用。     关于IK可以参考下官方文档的介绍,使用配置也有相关的pdf文档。htt...
  • zhjih123
  • zhjih123
  • 2014年04月07日 13:25
  • 1558
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:lucene测试IKAnalyzer分词器和读取txt文件方法
举报原因:
原因补充:

(最多只允许输入30个字)