- 博客(12)
- 资源 (14)
- 收藏
- 关注
转载 solr 1.4 的分布式请求过程 和 拼写检查过程
<br />solr 1.4 的分布式请求过程<br />rb.shards 这里存放了要分布的机器<br />for( SearchComponent c : components ) {//通知搜索组件准备<br /> c.prepare(rb);<br />}<br />while (非结束状态){<br /> // 调用各组件的分布式处理过程<br /> for( SearchComponent c : components ) {<br /> // the next
2010-12-30 18:26:00 1293
转载 Scaling Solr(Solr的扩展)
Scaling Solr(Solr的扩展)<br />文章分类:Java编程关于Solr可以参考之前的博客或者百度一下。这里主要讲Solr的扩展,包括横向,纵向,以及深度扩展。<br /> <br />Javaeye的排版有问题,将就看吧<br /><br />Solr的扩展(Scaling)<br /> <br />当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是,solr很好的考虑到了这些情况,你只需要改变你的配置就可以了。
2010-12-30 15:25:00 1609
转载 Lucene Scoring 评分机制
<br />Lucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节,致使用户可以简单地使用 lucene。但个人觉得:如果要根据自己的应用调节评分(或结构排序),十分有必须深入了解 lucene 的评分机制。<br />Lucene scoring 组合使用了 信息检索的向量空间模型 和 布尔模型 。<br />首先来看下 lucene 的评分公式(在 Similarity 类里的说明)score(q,d) =
2010-12-30 11:56:00 1244
原创 提高solr的搜索速度
之前是使用12台机分布式搜索,1台为主机做索引并分发给子机,8台做大索引搜索服务,3 台做小索引搜索服务,配置基本是内存在4-8G,cpu:2-8core的服务器,索引的大小为8G。搜索的响应时间 是150ms左右。(使用solr架构的搜索服务) 在一次技术群中,中听到一位sina的架构师,他们是采用基于lucene做的搜索服务,索引在20多G数据量,差不多是在亿的级别上,PV量在5
2010-12-28 15:54:00 6524 18
转载 HTTP相关
<br />原文http://www.cnblogs.com/skynet/archive/2010/12/11/1903347.html<br /> <br />——献给那些向我这样对HTTP的“伪”熟悉者。<br />故事发生在10月份的一次面试经历中,本来我不想说出来丢人显眼,但是为了警醒自己和告诫后人,我决定写成博文发出来。因为在面试过程中,我讲在2009年写过QQ农场助手,在这期间深入学习了HTTP协议,而且在2010-05-18写了博文:HTTP协议及其POST与GET操作差异 & C#中如何使
2010-12-16 10:24:00 1161 1
转载 《Lucene in Action》第五章—高级主题
5.1 Filed的Cache有时,存在这样的需求:快速的访问每个Document的Field,但是Lucene只是做了反向索引,因此这种正向索引非常耗时。Stored fields是一种解决方法,但是也很慢,特别当量大的时候,占用很多内存。Field的Cache能很好地解决这个问题。要求Document必须只有一个Token!用法float[] weights = FieldCache.DEFAULT.getFloats(reader, “weig
2010-12-08 12:20:00 1658
转载 《Lucene In Action》第四章.Analysis(分词)
原文http://www.coder4.com/archives/761简单来说,Analysis就是把field Text转化成基本的Term的形式。通过分词,将Text转化为Token,Token+对应的Field即为Term。分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。4.1 使用Analysis分词用于所有需要将Text转化成Term的场合,在Lucene中主要有两个:1、I
2010-12-08 12:04:00 1865
转载 《Lucene In Action》第三章.搜索
原文http://www.coder4.com/archives/741主要的类IndexSearcher:搜索的主类。Query(及具体子类):被传入IndexSearcher的search方法,用于逻辑上的搜索。QueryParser:将人工输入的查询字符串转化成Query对象。TopDocs:存储着得分最高的那些文档,由IndexSearcher的search方法返回。ScoreDoc:TopDocs中的每一个文档,他们只保留着Document的引用。
2010-12-03 18:42:00 2266
转载 从概念理解Lucene的Index(索引)文档模型
<br />Lucene主要有两种文档模型:Document和Field,一个Document可能包含若干个Field。<br />每一个Field有不同的策略:<br />1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文。<br />2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。<br />3.可选择是否存储(store),将原文直接拷贝,不做索引,用于检索后的取出。<br />Lucene中的文档模型类似于数
2010-12-03 17:11:00 6660 3
原创 lucene 抛出的异常
String keyword=".......";//(keyword的长度太长)Query indexQuery = new QueryParser("name",analyzer).parse(keyword);有没有人遇到过 上面的查询当 keyword很长时报错的问题?too many boolean clausesQueryParser会将keyword切分为多个TermQuery组成的BooleanQuery.所以当keyword被切成过于1024个时,就会出现刚刚那个异常。查看原因
2010-12-03 15:44:00 1116
转载 《Lucene In Action》第四章.Analysis(分词)
<br />原文http://www.coder4.com/archives/761<br /> <br />简单来说,Analysis就是把field Text转化成基本的Term的形式。<br />通过分词,将Text转化为Token,Token+对应的Field即为Term。<br />分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。<br />本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。4.1 使用Analysis<br
2010-12-03 15:28:00 1004
转载 我的Java学习推荐书目
<br />原文http://www.blogjava.net/killme2008/archive/2010/11/11/337788.html<br /> <br />一直有这么个想法,列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍,给初学者或者想深入的朋友一些建议,帮助成长。推荐的的都是我自己读过,也会推荐一些朋友读过并且口碑不错的书籍。<br /><br />一、基础类<br />1、《Thinking in java》,入门第一位是建立正确的概念。<br />2、《Cor
2010-12-01 13:27:00 762
56 solrCloud分布式搜索与索引过程
2014-05-29
solr1.4 电子书
2010-05-19
lucene3 原理介绍跟代码分析
2010-04-08
JMS简明教程.pdf
2010-03-15
lucene做的桌面搜索
2009-05-04
JSF+in+Action中文版.pdf
2009-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人