分词与索引
文章平均质量分 86
iteye_14256
这个作者很懒,什么都没留下…
展开
-
原创中文分词代码分享(0)——序言
一眨眼大学四年的生活就要过去了,摆在自己面前的也差不多只剩下毕业设计这个“难关”了。很高兴能在大学中找到跟自己志同道合的好朋友,好拍档一起来为我们的毕业设计——基于语义网的信息检索而奋斗。正如主题那样,我所负责的正是中文分词这一部分…… 经过一个月来找工与断断续续的编码相交织的努力,也实现了基于MM(正向最大匹配)与RMM(反向最大匹配)两种方式的分词接口,而在词典...2006-12-26 18:20:10 · 105 阅读 · 0 评论 -
原创中文分词代码分享(1.1)——词典接口
目前为止,已实现了1、一维线性表 2、首字Hash 3、双Hash 三种词典的存储结构与表现形式。首先来看一下词典结构的接口Interface:java 代码 /* * @作者:Hades , 创建日期:2006-11-17 * * 汕头大学03计算机本科 * */ package edu.stu.cn....2006-12-26 18:52:46 · 167 阅读 · 0 评论 -
原创中文分词代码分享(1.2)——词典接口
最后说一下双Hash结构的实现类DoubleHashDictionary类:java 代码 /* * @作者:Hades , 创建日期:2006-11-17 * * 汕头大学03计算机本科 * */ package edu.stu.cn.segment.matching.dictionary; ...2006-12-26 19:07:55 · 135 阅读 · 0 评论 -
原创中文分词代码分享(2.1)——基于词典的分词接口
现在来看一下基于词典的分词接口(最大匹配法)。先来看一下分词处理的接口SegmentProcessorImpl:java 代码 /* * @作者:Hades , 创建日期:2006-11-17 * * 汕头大学03计算机本科 * */ package edu.stu.cn.segment.matching.pr...2006-12-28 08:32:20 · 160 阅读 · 0 评论 -
原创中文分词代码分享(2.2)——基于词典的分词接口
接着是正向最大匹配的实现类MaxMatchSegmentProcessor:java 代码 /* * @作者:Hades , 创建日期:2006-11-17 * * 汕头大学03计算机本科 * */ package edu.stu.cn.segment.matching.processor; ...2006-12-28 08:38:46 · 131 阅读 · 0 评论 -
基于词典的最大匹配的Lucene中文分词程序
把自己之前完成的基于词典的最大匹配的中文分词程序修改成基于Lucene。其中包括了3种词典的组织形式:简单顺序存储SimpleDictionary,首字Hash词典HashDictionary,双重Hash词典;例外实现了两种分词算法:正向最大匹配MaxMatchSegment与反向最大匹配分词ReverseMaxMatchSegment;最后使用使只需根据需要配置spring的配置文件即可选择词...2007-03-11 17:56:30 · 130 阅读 · 0 评论 -
引入局部统计识别高频词汇的Lucene中文分词程序
在基于词典的最大匹配的Lucene中文分词程序基础上引入了局部统计识别新词的功能,目前实现的方法有两种:1、基于后缀数组的局部统计识别高频词汇 BasedSuffixArrayStringFetcher2、基于单字共现频率的局部统计高频词汇 HighFrequenceStringFetcher问题1:什么是后缀数组解答:后缀数组是由作为一种文...2007-04-02 18:40:02 · 202 阅读 · 0 评论 -
初试Hibernate Search
不久前Hibernate推出了Hibernate Search 3.0 GA,由它的名字大家也可以大概猜到它的作用是对数据库中的数据进行检索的。它是hibernate对著名的全文检索系统Lucene的一个集成方案,作用在于对数据表中某些内容庞大的字段(如声明为text的字段)建立全文索引,这样通过hibernate search就可以对这些字段进行全文检索后获得相应的POJO,从而加快了对内容庞大...2007-10-03 16:16:10 · 112 阅读 · 0 评论