lucene测试IKAnalyzer分词器和读取txt文件方法

原创 2012年03月27日 10:43:06

package test;


import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

 


/**
 *
 * @author Administrator
 * @测试分词器
 */
public class TestAnalyzer {
  
 

 public static void main(String[] args)throws Exception{
   Analyzer ik=new IKAnalyzer();
  String text2="我们是中国人举行了2008年8月8日北京奥林匹克运动会我们是中国人举行了2008年8月8日北京奥林匹克运动会";
  //读取文件
       // text2=readTxt("D:\\note.txt");
       
        //十词=叠加字符串
  StringBuffer sb=new StringBuffer();
  for(int i=0;i<10;i++){
   sb.append(text2);
  }  
  //分词
  testAanlyzer(ik,sb.toString());
 }
 public static void testAanlyzer (Analyzer analyzer,String text)throws Exception{
  
  long start=System.currentTimeMillis();  
  TokenStream ts=analyzer.tokenStream("content",new StringReader(text));
  CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
  System.out.println("分词效果如下:");
  int i=0;
  while(ts.incrementToken()){
   i++;
   System.out.println(new String(term.buffer(),0,term.length()));
  }
  long usetime=System.currentTimeMillis()-start;
  System.out.println("共分词="+i+",共耗时="+usetime+"毫秒。");
 }
 
   public String readTxt(String path){
    StringBuffer text = new StringBuffer("");
  String tex = null;
  BufferedReader read = null;
  try {
   read = new BufferedReader(new FileReader(path));
   while ((tex = read.readLine()) != null) {
    text.append(tex + "\n");
   }
  } catch (FileNotFoundException e) {
   e.printStackTrace();
  } catch (IOException e) {
   e.printStackTrace();
  } finally {
   if (read != null) {
    try {
     read.close();
    } catch (IOException e) {
     e.printStackTrace();
    }
   }
  }
  //System.out.println(text);
    return text.toString();
   }
}

相关文章推荐

Lucene的中文分词器IKAnalyzer

分词器对英文的支持是非常好的。   一般分词经过的流程:   1)切分关键词   2)去除停用词   3)把英文单词转为小写   但是老外写的分词器对中文分词一般都是单字...

Lucene 实例教程(二)之IKAnalyzer中文分词器

转自作者:永恒の_☆ 地址:http://blog.csdn.net/chenghui0317/article/details/10281311 最近研究数据库模糊查询,发现oracle数据库中...

JAVA_WEB项目之Lucene使用中文分词器IKAnalyzer3.2.8

上一篇介绍了JAVA_WEB项目之Lucene检索框架中的IndexWriter、IndexSearch优化

Lucene—IKAnalyzer分词器配置扩充词典

一.IKAnalyzer包 Ik分词器下载地址:点击打开链接 解压之后将IKAnalyzer包加入到自己的工程. 二.IK分词独立使用 (1)程序目录结构   (2)示例程序:IKAnalyzerT...
  • csmnjk
  • csmnjk
  • 2016年06月29日 13:28
  • 1888

lucene使用IKAnalyzer3.2.5中文分词器进行索引的一个小例子

本文通过一个小例子方便大家学习IKAnalyzer3.2.5和lucene的索引功能。以下是需要的准备环境  需要两个jar包。 分别是lucene 3.5.0.jar和IKAnalyzer3.2....

lucene使用IKAnalyzer3.2.8中文分词器进行索引的一个小例子

使用IKAnalyzer3.2.8中文分词器进行索引,并进行搜索的一个小例子。 例子需导入IKAnalyzer3.2.8.jar包以及lucene相关的包,例子中我用的lucene包为lucene-...
  • yyunix
  • yyunix
  • 2011年11月07日 08:29
  • 1417

Lucene 实例教程(二)之IKAnalyzer中文分词器

一、前言        前面简单介绍了Lucene,以及如何使用Lucene将索引 写入内存,地址:http://blog.csdn.net/chenghui0317/article/details/...

Lucene的中文分词器IKAnalyzer

转自http://blog.sina.com.cn/s/blog_67196ddc0101a3so.html 分词器对英文的支持是非常好的。   一般分词经过的流程:   1)切分关键词  ...

lucene全文搜索之二:创建索引器(创建IKAnalyzer分词器和索引目录管理)基于lucene5.5.3

前言: lucene全文搜索之一中讲解了lucene开发搜索服务的基本结构,本章将会讲解如何创建索引器、管理索引目录和中文分词器的使用。 包括标准分词器,IKAnalyzer分词器以及两种索引目录的创...
  • eguid_1
  • eguid_1
  • 2016年11月08日 21:45
  • 1092

lucene全文搜索之四:创建索引搜索器、6种文档搜索器实现以及搜索结果分析(结合IKAnalyzer分词器的搜索器)基于lucene5.5.3

前言: 前面几章已经很详细的讲解了如何创建索引器对索引进行增删查(没有更新操作)、如何管理索引目录以及如何使用分词器,上一章讲解了如何生成索引字段和创建索引文档,并把创建的索引文档保存到索引目录,到这...
  • eguid_1
  • eguid_1
  • 2016年11月09日 11:17
  • 1025
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:lucene测试IKAnalyzer分词器和读取txt文件方法
举报原因:
原因补充:

(最多只允许输入30个字)