自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

搜索引擎、个性化推荐、大数据相关学习笔记|

工作多年在搜索、推荐算法、大数据这块领域深扎,业务与技术不断积累与成长,对业务、技术、算法有独道的思考

  • 博客(12)
  • 资源 (14)
  • 收藏
  • 关注

转载 solr 1.4 的分布式请求过程 和 拼写检查过程

 <br />solr 1.4 的分布式请求过程<br />rb.shards 这里存放了要分布的机器<br />for( SearchComponent c : components ) {//通知搜索组件准备<br /> c.prepare(rb);<br />}<br />while (非结束状态){<br /> // 调用各组件的分布式处理过程<br /> for( SearchComponent c : components ) {<br /> // the next

2010-12-30 18:26:00 1293

转载 Scaling Solr(Solr的扩展)

Scaling Solr(Solr的扩展)<br />文章分类:Java编程关于Solr可以参考之前的博客或者百度一下。这里主要讲Solr的扩展,包括横向,纵向,以及深度扩展。<br /> <br />Javaeye的排版有问题,将就看吧<br /><br />Solr的扩展(Scaling)<br /> <br />当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是,solr很好的考虑到了这些情况,你只需要改变你的配置就可以了。

2010-12-30 15:25:00 1609

转载 Lucene Scoring 评分机制

<br />Lucene 评分体系/机制(lucene scoring)是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节,致使用户可以简单地使用 lucene。但个人觉得:如果要根据自己的应用调节评分(或结构排序),十分有必须深入了解 lucene 的评分机制。<br />Lucene scoring 组合使用了 信息检索的向量空间模型 和 布尔模型 。<br />首先来看下 lucene 的评分公式(在 Similarity 类里的说明)score(q,d) =

2010-12-30 11:56:00 1244

原创 提高solr的搜索速度

之前是使用12台机分布式搜索,1台为主机做索引并分发给子机,8台做大索引搜索服务,3 台做小索引搜索服务,配置基本是内存在4-8G,cpu:2-8core的服务器,索引的大小为8G。搜索的响应时间 是150ms左右。(使用solr架构的搜索服务)    在一次技术群中,中听到一位sina的架构师,他们是采用基于lucene做的搜索服务,索引在20多G数据量,差不多是在亿的级别上,PV量在5

2010-12-28 15:54:00 6524 18

转载 HTTP相关

<br />原文http://www.cnblogs.com/skynet/archive/2010/12/11/1903347.html<br /> <br />——献给那些向我这样对HTTP的“伪”熟悉者。<br />故事发生在10月份的一次面试经历中,本来我不想说出来丢人显眼,但是为了警醒自己和告诫后人,我决定写成博文发出来。因为在面试过程中,我讲在2009年写过QQ农场助手,在这期间深入学习了HTTP协议,而且在2010-05-18写了博文:HTTP协议及其POST与GET操作差异 & C#中如何使

2010-12-16 10:24:00 1161 1

转载 《Lucene in Action》第五章—高级主题

5.1 Filed的Cache有时,存在这样的需求:快速的访问每个Document的Field,但是Lucene只是做了反向索引,因此这种正向索引非常耗时。Stored fields是一种解决方法,但是也很慢,特别当量大的时候,占用很多内存。Field的Cache能很好地解决这个问题。要求Document必须只有一个Token!用法float[] weights = FieldCache.DEFAULT.getFloats(reader, “weig

2010-12-08 12:20:00 1658

转载 《Lucene In Action》第四章.Analysis(分词)

原文http://www.coder4.com/archives/761简单来说,Analysis就是把field Text转化成基本的Term的形式。通过分词,将Text转化为Token,Token+对应的Field即为Term。分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。4.1  使用Analysis分词用于所有需要将Text转化成Term的场合,在Lucene中主要有两个:1、I

2010-12-08 12:04:00 1865

转载 《Lucene In Action》第三章.搜索

原文http://www.coder4.com/archives/741主要的类IndexSearcher:搜索的主类。Query(及具体子类):被传入IndexSearcher的search方法,用于逻辑上的搜索。QueryParser:将人工输入的查询字符串转化成Query对象。TopDocs:存储着得分最高的那些文档,由IndexSearcher的search方法返回。ScoreDoc:TopDocs中的每一个文档,他们只保留着Document的引用。

2010-12-03 18:42:00 2266

转载 从概念理解Lucene的Index(索引)文档模型

<br />Lucene主要有两种文档模型:Document和Field,一个Document可能包含若干个Field。<br />每一个Field有不同的策略:<br />1.被索引 or not,将该字段(Field)经过分析(Analyisi)后,加入索引中,并不是原文。<br />2.如果被索引,可选择是否保存“term vector”(向量),用于相似检索。<br />3.可选择是否存储(store),将原文直接拷贝,不做索引,用于检索后的取出。<br />Lucene中的文档模型类似于数

2010-12-03 17:11:00 6660 3

原创 lucene 抛出的异常

String keyword=".......";//(keyword的长度太长)Query indexQuery = new QueryParser("name",analyzer).parse(keyword);有没有人遇到过 上面的查询当 keyword很长时报错的问题?too many boolean clausesQueryParser会将keyword切分为多个TermQuery组成的BooleanQuery.所以当keyword被切成过于1024个时,就会出现刚刚那个异常。查看原因

2010-12-03 15:44:00 1116

转载 《Lucene In Action》第四章.Analysis(分词)

<br />原文http://www.coder4.com/archives/761<br /> <br />简单来说,Analysis就是把field Text转化成基本的Term的形式。<br />通过分词,将Text转化为Token,Token+对应的Field即为Term。<br />分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。<br />本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。4.1  使用Analysis<br

2010-12-03 15:28:00 1004

转载 我的Java学习推荐书目

<br />原文http://www.blogjava.net/killme2008/archive/2010/11/11/337788.html<br /> <br />一直有这么个想法,列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍,给初学者或者想深入的朋友一些建议,帮助成长。推荐的的都是我自己读过,也会推荐一些朋友读过并且口碑不错的书籍。<br /><br />一、基础类<br />1、《Thinking in java》,入门第一位是建立正确的概念。<br />2、《Cor

2010-12-01 13:27:00 762

56.com 视频推荐与大数据架构介绍

56.com 视频推荐与大数据架构介绍

2015-09-22

56 solrCloud分布式搜索与索引过程

2014-05-29

hadoop中文教程.pdf

hadoop中文教程 ,hadoop入门学习

2010-11-15

编程珠玑第二版中英源打包

编程珠玑第二版中英源打包,经典的算法题,读取第一页的时候,深深地被使用bit数组对大数据量快捷的排序方式给吸引住了。。

2010-08-04

sogou 词典 搜狗最新词典

sogou 词典 搜狗最新词典,对于做分词程序作用。。

2010-05-28

solr1.4 电子书

solr1.4 电子书 lucene Enhance your search with faceted navigation, result highlighting, fuzzy queries, ranked scoring, and more

2010-05-19

lucene3 原理介绍跟代码分析

lucene3 原理介绍跟代码分析 全文检索就存在三个重要问题: 1. 索引里面究竟存些什么?(Index) 2. 如何创建索引?(Indexing) 3. 如何对索引进行搜索?(Search) 下面我们顺序对每个个问题进行研究。

2010-04-08

JMS简明教程.pdf

企业消息产品(或者有时称为面向消息的中间件产品)正逐渐成为公司内操作集成的关 键组件。这些产品可以将分离的业务组件组合成一个可靠灵活的系统。 除了传统的MOM 供应商,企业消息产品也可以由数据库供应商和许多与网络相关的公 司来提供。 Java 语言的客户端和Java 语言的中间层服务必须能够使用这些消息系统。JMS 为Java 语言程序提供了一个通用的方式来获取这些系统。 JMS 是一个接口和相关语义的集合,那些语义定义了JMS 客户端如何获取企业消息产品 的功能。 由于消息是点对点的,所以JMS 的所有用户都称为客户端(clients)。JMS 应用由定义 消息的应用和一系列与他们交互的客户端组成

2010-03-15

Java JDK6学习笔记.pdf

很好的一本JAVA书籍,很适合初学者~ 一本好的启蒙书,让你少走更多的弯路~

2009-05-04

lucene做的桌面搜索

这个程序是用java做的桌面搜索,利用lucene API技术完成建立索引跟搜索功能,其它大部分功能是仿照火速搜索软件的,请大家多多指教,因为没时间完善,所以还存在很多缺点,特别是界面运行就比较慢~

2009-05-04

RCP程序设计.pdf

对做eclipse的插件感兴趣的好东西 RCP 富客户端的入门第一手资料

2009-04-06

精通Struts(Word版).pdf

精通 Struts 中文版 孙卫琴 经典书籍

2009-03-28

JSF+in+Action中文版.pdf

JSF 经典书籍 我希望JavaServer Faces in Action 能够激发你如我一般对此技术的热情,并且成为你自己项目开发的有用工具 本书是针对那些正在开发 Java web 应用的人— 架构师,应用开发人员和前端开发人员。在 我看来,架构师关心的是应用的设计,使用哪种技术,以及开发过程如何运作。开发人员则 构建模型对象,应用逻辑等等,而前端开发人员则具体构建GUI,通常使用象JSP 或者Velocity 之类的显示技术。在某些团队中,这些角色可能由相同的人承担,或者不同的角色具有重叠 的技能要求。JSF 是一个 web 应用框架,类似于Struts, WebWork, 或者Tapestry,但是本书 即使你之前从没有用过一种Web 框架也是可读的。

2009-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除