java
文章平均质量分 78
iteye_5348
这个作者很懒,什么都没留下…
展开
-
Lucene关于实现Similarity自定义排序
[b]开场白:[/b]作为一个人才网站的搜索功能,不但需要考滤搜索性能与效率,与需要注意用户体验,主要体现于用户对搜索结果的满意程度.大家都知道Lucene的排序中,如果单纯使用Lucene的DefaultSimilarity作为一个相似度的排序,意思是说总体上越相关的记录需要排得越前,但事与愿违.这样使用户体现也表现得相当糟糕.关键字“程序员”标题中也不能保证全部都匹配到(搜索结果来自 ww...原创 2010-02-02 18:51:21 · 261 阅读 · 0 评论 -
使用快速分词匹配地区
需求的提出 现在的公司数据集群中,已经存在约8亿的数据,现在有一个业务的要求如下, 1. 比如搜索"广东",则需要把包含广东以下市,区,镇,街道等的所有的关键字都给匹配出来. 2. 同时,搜索"天河",则需要返回一个"广东 广州 天河" 这样子详细的路径出来.意思不能是简单的关键字匹配,因为它有地区的层次归属. 3. 比如文章中含有"朝阳",则全国地区中只含...原创 2014-04-25 16:49:54 · 479 阅读 · 1 评论 -
Lucene性能优化之使用Lucene预排序加速搜索速度
简单说搜索个过程,Lucene 在搜索的程序简单分成两部分,搜索与排序。高手请忽略下面我的讲解。 搜索: 通过倒排的索引找到对应的 docId 集,...原创 2013-12-30 15:36:48 · 583 阅读 · 0 评论 -
解决Mina的传输中造成的TIME_WAIT过多的问题
开场白: Mina 是一个韩国人写的基本java NIO的一个高性能的传输框架,我们的搜索就是基本它作为一个搜索服务开放接口了。对于系统的TIME_WAIT过多,造成服务器的负载过高,这个问题我也不用多说了,这段时间发现搜索服务器上的TIME_WAIT过多,我们每天大约总处理70W左右的搜索请求,虽然不多,但是造成了TIME_WAIT很多,有好几千个,可以 netstat -antu | gr...原创 2010-06-25 12:44:50 · 376 阅读 · 0 评论 -
实现类用Lucene PrefixQuery 来实现 Google Suggest 的功能的一种简单方法
开场白: 在我们上google或者baidu的时候,在输入框中输入关键字,然后就有建议的提示来让用户选择。如下图:[img]http://dl.iteye.com/upload/attachment/266068/a5a446ac-6567-3cbc-ad4b-4ec93849161b.png[/img]可以看到,输入了前面的关键字就能全部匹配了关键出来了。但有人会问,直接用...原创 2010-06-19 19:54:39 · 111 阅读 · 0 评论 -
职友集(www.jobui.com) Lucene Similarity 的排序规则更改了...
[b]开场白:[/b]以前职友集(www.jobui.com)的排序方式很原始,直接按Lucene的默认的Similarity排序,不过这样使得用户感受非常不好,留意过我之前写的博客中已经有提到过通过继承Similarity来实现自定义的排序方法。因为职友集是一个全国最大的中文职位搜索引擎,职位搜索有一个特点就是时间相关性,不但要匹配,而且还需要最新的职位排序最前才会有良好的用户感受,同时现在职友...2010-06-10 17:19:55 · 235 阅读 · 0 评论 -
sphinx中聚类统计的实现与数据表设计
[b]开场白:[/b]sphinx是一个简单但功能相当强大的基于mysql的一个搜索插件包.1 搜索速度方面稍比lucene快,索引分词速度上也比lucene的分词工具如:IK,paoding等快.(个人平时实践而言)2 内存搜索与CPU占用方面,比lucene要控制得好.3 灵活性明显比lucene要差,因为索引字段一定要基于数据库的字段,不能象lucene一样可以随时建立索引的字段...2010-04-12 19:42:37 · 157 阅读 · 0 评论 -
tokyocabinet与lucene在搜索上的应用
[b]开场白:[/b]一个多月没有写博客了,今天就写点这一个月工作情况吧.新的公司搜索框架最后却不能成功上线运行这点令我很遗憾,结果还是使用旧有的.[b]背景:[/b] 现在公司一直使用的搜索框架由于内存的使用上及搜索速度和索引的切换方面有比较大的缺憾,首先这里简单说一下以前的搜索框架吧,采取双索引机制,一搜索,一存储。缺点显然而见 1 内存使用方面,明显多加载多一份索引,有...2009-09-25 13:26:52 · 100 阅读 · 0 评论 -
再说tokyocabinet 及其扩展
开场白:关于tokyocabinet的性能就不说了,但至于安装的话,我之前已经写过关于安装java版的tokyocabinet,但我觉得未够系统,所以决定还简短说说。。。。然后再说一下关于tokyocabinet原生的java API是不支持直接存取java对象的.但可以做些扩展让java tokyocabinet技术存取对象.1 如果直接编译的tokyocabinet java版的时...2009-09-08 00:32:40 · 134 阅读 · 0 评论 -
我在工作中的Lucene中关于 MUST , SHOULD的一个想法
[b]开场白[/b]:我看过几本书说关于lucene中的BooleanQuery查询条件的参数Boolean.Clause.MUST,Boolean.Clause.MUST_NOT,Boolean.Clause.SHOULD之关的关系,其实就好象是集合中的交集并集等关系.这里不重复书的例子,说一点我平时在工作中的应用吧. 书基本都是说,当MUST与SHOULD关联使用的时候,...2009-08-24 23:24:28 · 387 阅读 · 0 评论 -
solr 对网站域名的搜索技巧应用
菜鸟级文章,高手请绕道. 基本事情背景是这样, 在公司的抓取回来的数据中,都有大量的来源不同网站的域名.这时用户可能只对某几个来源网站感兴趣,或者对某几个来源网站不感兴趣之类,以前的版本中,只对网站域名做了非常简单的分词,基本上可以认为是对 www.it.com.cn 之类的网站,通过 "." 把域名拆开,然后索引.这样用户在搜索某几个域名的网站,直接就可以匹配到了....原创 2015-05-18 15:47:14 · 262 阅读 · 0 评论