GTAnalyzer-lucene中文分词

原创 2013年12月02日 16:56:23
此分词算法主要来源于:http://xiecc.blog.163.com/blog/static/14032200671110224190/


源码svn地址:http://code.taobao.org/svn/gtanalyzer/trunk



可以使用svn下载源代码

 
 1.词典使用树形结构保存,每一个字符占一个树的节点,相同前缀的词在同一棵子树中


 2.使用了正向匹配分词法,但是不受词长限制,可以是任意长度的词
 3.消除歧义,比如:中华人民共和国,可以分为:中华人民共和国/中华人民/人民共和国/人民/共和/共和国;前提是你的词典中有这些词
 4.这个组件不光是lucene的中文分词实现,也是一个独立的java分词组件,不依赖任何jar包,具体的分词在com.wuda.segmentation包下
 5.util包中的CharacterTree.java的findPrefix提供根据前缀找单词的功能,这个可以用于搜索框的输入提示功能
 

测试结构: 我的是联想E420电脑,加载28万个单词 1.加载平均用时9秒; 2.分词速度平均110万中文字/秒,平均2100KB/S 3.随机查找5866个前缀,共用时190ms,平均用时0.032390043ms,包括了排序,提供的排序接口可以是升序或者降序

使用: 1.如果只用于lucene分词,则只需 a)Analyzer analyzer = new GTAnalyzer();

主要是基于lucene4.0开发,不同版本可能有可能不兼容

b)可以在src目录下新增一个gt.properties文件,用于配置自定义词典位置和句分隔符,默认有提供词典。

2.如果只用于前缀匹配: a)CharacterTree tree = new CharacterTree(); //生成空词典 b)tree.load(resource); 或者 tree.add(word); //加载单词 c)PriorityLinkedQueue<Word> queue=new PriorityLinkedQueue<Word>(10,Order.DESC);//降序队列 d)tree.findPrefix(prefix, queue); //前缀查找 e)queue.next() //获取元素

2)如果是作为独立的java分词组件:

a)CharacterTree tree = new CharacterTree(); //生成空词典 

b)tree.load(resource); 或者 tree.add(word); //加载单词

c)Segmenter seg = new GTSegmenter(dic); //分词实例

d)List<Token> tokens= seg.seg(str); // 执行分词

相关文章推荐

Lucene的中文分词方法设计与实现

  • 2012年09月14日 10:35
  • 348KB
  • 下载

IKAnalyzer中文分词支持lucene6.5.0版本

  • 2017年03月28日 16:30
  • 5.46MB
  • 下载

Lucene学习——IKAnalyzer中文分词(一)

一、环境 1、平台:MyEclipse8.5/JDK1.5 2、开源框架:Lucene3.6.1/IKAnalyzer2012 3、目的:测试IKAnalyzer的分词效果 二、开发调试 1...
  • CYXLZZS
  • CYXLZZS
  • 2012年09月20日 11:44
  • 24091

lucene中文分词jar包

  • 2007年04月17日 05:14
  • 19KB
  • 下载

lucene(五) 中文分词和高亮显示

1.建立索引 package com.ljl.lucene.demo.chineseanalyzer; import org.apache.lucene.analysis.cn.smart....

lucene中文分词总结

全文检索几乎是所有内容管理系统软件(CMS)必备的功能,在对公司的CMS产品的开发维护过程中,全文检索始终是客户重点关注的模块,为满足客户各式各样越来越高的要求,对全文检索曾做过一段时间相对深入的研究...
  • QSEFDWA
  • QSEFDWA
  • 2016年07月12日 16:48
  • 98

Lucene 中文分词、分页、高亮 索引TXT

1、所用的Jar包 lucene-core-4.7.2.jar lucene-analyzers-common-4.7.2.jar lucene-queryparser-4.7.2.ja...

lucene中文分词公用组件V1.3

  • 2007年01月10日 15:19
  • 836KB
  • 下载

IKAnalyzer 1.4(lucene中文分词组件)

  • 2007年11月15日 08:49
  • 848KB
  • 下载

中文分词---2011-10-25 22:42 Lucene分词实现(二次开发流程)

转自:http://hi.baidu.com/zhumulangma/item/fcb2851542a2b924f7625c32 1.1  分词流程 在Lucene3.0中,对分词主要依靠Ana...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:GTAnalyzer-lucene中文分词
举报原因:
原因补充:

(最多只允许输入30个字)