搜索引擎
文章平均质量分 81
licaoiii
这个作者很懒,什么都没留下…
展开
-
Lucene下引入ICTCLAS进行中文分词的实现方法
Analysis包分析算法和数据结构分析:由于Analysis包比较简单,不详述了!算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话)数据结构:部分源码用到了Set ,HashTable,HashMap认真理解TokenLucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个转载 2012-02-15 11:25:46 · 713 阅读 · 0 评论 -
一个用Lucene3.0 的搜索项目设计总体图
目前一个项目里面用了Lucene3.0做一个搜索引擎。是想作为一个平台性质的。为各个应用提供搜索服务。底层数据库建索引是支持对多个数据库建索引的,因为不同应用的数据库可能不一样。所以在搜索结果和返回搜索数据之间增加了一个业务处理层,专门针对各个应用的一些业务上的处理。在我们的设计中,把和业务相关的很多Lucene的设置都提到了业务处理层,比如排序、Query组装、还有业务字段和索引字段转载 2012-02-23 12:59:38 · 426 阅读 · 0 评论 -
字符串匹配相关算法总结
字符串匹配定义:文本是一个长度为n的数组T[1…n], 模式是以个长度mP和T的元素都是有限字母表∑中的字符 1.字符串朴素匹配也就是蛮力匹配,每次移动一个步长,然后匹配,时间复杂度O((n-m+1)m)2.Rabin-Karp算法Rabin-Karp算法的思想是将模式串P表达为一个值,这样每次进行串匹配的时候,只需要比较这个值就可以了,而不需要对m个字符串进行m次比转载 2012-02-28 17:17:37 · 492 阅读 · 0 评论 -
lucene3.0简单解析
一、 概述 Lucene3.0(以下简称3.0)已于2009-11-25发布,3.0版本是重大的版本,改动很大。在API上做了很多的调整,已经删除了很多之前废弃的方法以及类,并支持了很多Java5 的新特性:包括泛型、可变参数、枚举和autoboxing等。 因此,此版本和2.x版本不能兼容,如要使用3.0版本,最好是在新项目中去使用,而不是去升级2.x或之前的版本!转载 2012-02-28 16:55:54 · 715 阅读 · 0 评论 -
Lucene3.0分词原理与分词系统
分词原理 建立索引和查询的过程中,都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器,把短语或者句子切分成相同的结果,才能保证检索过程顺利进行。1、 英文分词的原理 基本的处理流程是:输入文本、词汇分割、词汇过滤(去除停留词)、词干提取(形态还原)、大写转载 2012-02-29 17:51:29 · 912 阅读 · 0 评论 -
中文分词
用了好几种分词方式, 1.先是扫描出全部词组并记下前后位置 2.然后将有争议的部分进行词性规则匹配 如:江西省委 可能为 "江西省ns(地名) 委g(语素) "和 "江西ns(地名) 省委n(名词) " 按规则ns+n就可以正确分出 "江西 省委 "3.无规则匹配的按统计频率分值高低拆分 4.用普通的正向最大匹配处理可能出现的碎片 5.用语料库中收集转载 2012-03-19 15:11:09 · 351 阅读 · 0 评论 -
自定义的Lucene排序
从1.4版本开始,Lucene开始支持自定义的结果排序,而在之前,结果只能按照评分结果倒序排列(desc)。 通常,在查询时我们使用IndexSearcher的search(Query query)方法,这个方法默认返回的结果是按照评分结果倒序排列.要实现自定义排序,则应该使用search方法的overload版本search(Query query,Sort sort).转载 2012-04-26 11:24:01 · 1075 阅读 · 0 评论 -
DWR入门与使用
Java 開發人員與網頁設計人員的橋樑 DWR…呃!我懶得寫簡介了…直接來看看可以做什麼吧!…請先到 http://getahead.ltd.uk/dwr/ 下載 dwr.jar,放到WEB-INF/lib下…負責處理客戶端請求,並呼叫Java物件的是DWRServlet,DWR其實也有些Model 2的味道,只是View的這一層比較弱,因為放到客戶端的JavaScript转载 2012-05-18 15:19:30 · 492 阅读 · 0 评论