搜索引擎、个性化推荐、大数据相关学习笔记|

工作多年在搜索、推荐算法、大数据这块领域深扎，业务与技术不断积累与成长，对业务、技术、算法有独道的思考

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 solr 1.4 的分布式请求过程和拼写检查过程

solr 1.4 的分布式请求过程 rb.shards 这里存放了要分布的机器 for( SearchComponent c : components ) {//通知搜索组件准备 c.prepare(rb); } while (非结束状态){ // 调用各组件的分布式处理过程 for( SearchComponent c : components ) { // the next

2010-12-30 18:26:00 1293

转载 Scaling Solr（Solr的扩展）

Scaling Solr（Solr的扩展） 文章分类:Java编程关于Solr可以参考之前的博客或者百度一下。这里主要讲Solr的扩展，包括横向，纵向，以及深度扩展。 Javaeye的排版有问题，将就看吧 Solr的扩展(Scaling) 当你的索引数量越来越大，你会发现你的搜索响应时间变得更慢，索引新内容的时间也会越来越长，那么，到了做出一些改变的时候了，幸运的是，solr很好的考虑到了这些情况，你只需要改变你的配置就可以了。

2010-12-30 15:25:00 1609

转载 Lucene Scoring 评分机制

Lucene 评分体系/机制（lucene scoring）是 Lucene 出名的一核心部分。它对用户来说隐藏了很多复杂的细节，致使用户可以简单地使用 lucene。但个人觉得：如果要根据自己的应用调节评分（或结构排序），十分有必须深入了解 lucene 的评分机制。 Lucene scoring 组合使用了信息检索的向量空间模型和布尔模型。 首先来看下 lucene 的评分公式（在 Similarity 类里的说明）score(q,d) =

2010-12-30 11:56:00 1244

原创提高solr的搜索速度

之前是使用12台机分布式搜索，1台为主机做索引并分发给子机，8台做大索引搜索服务，3 台做小索引搜索服务，配置基本是内存在4-8G，cpu:2-8core的服务器，索引的大小为8G。搜索的响应时间是150ms左右。（使用solr架构的搜索服务）在一次技术群中，中听到一位sina的架构师，他们是采用基于lucene做的搜索服务,索引在20多G数据量，差不多是在亿的级别上，PV量在5

2010-12-28 15:54:00 6524 18

转载 HTTP相关

原文http://www.cnblogs.com/skynet/archive/2010/12/11/1903347.html ——献给那些向我这样对HTTP的“伪”熟悉者。 故事发生在10月份的一次面试经历中，本来我不想说出来丢人显眼，但是为了警醒自己和告诫后人，我决定写成博文发出来。因为在面试过程中，我讲在2009年写过QQ农场助手，在这期间深入学习了HTTP协议，而且在2010-05-18写了博文：HTTP协议及其POST与GET操作差异 & C#中如何使

2010-12-16 10:24:00 1161 1

转载《Lucene in Action》第五章—高级主题

5.1 Filed的Cache有时，存在这样的需求：快速的访问每个Document的Field，但是Lucene只是做了反向索引，因此这种正向索引非常耗时。Stored fields是一种解决方法，但是也很慢，特别当量大的时候，占用很多内存。Field的Cache能很好地解决这个问题。要求Document必须只有一个Token！用法float[] weights = FieldCache.DEFAULT.getFloats(reader, “weig

2010-12-08 12:20:00 1658

转载《Lucene In Action》第四章.Analysis（分词）

原文http://www.coder4.com/archives/761简单来说，Analysis就是把field Text转化成基本的Term的形式。通过分词，将Text转化为Token，Token+对应的Field即为Term。分词的处理包括：萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形（去掉过去时等）等。本章将介绍如何使用内置的分词器，以及如何根据语言、环境等特点创建自己的分词器。4.1 使用Analysis分词用于所有需要将Text转化成Term的场合，在Lucene中主要有两个：1、I

2010-12-08 12:04:00 1865

转载《Lucene In Action》第三章.搜索

原文http://www.coder4.com/archives/741主要的类IndexSearcher：搜索的主类。Query（及具体子类）：被传入IndexSearcher的search方法，用于逻辑上的搜索。QueryParser：将人工输入的查询字符串转化成Query对象。TopDocs：存储着得分最高的那些文档，由IndexSearcher的search方法返回。ScoreDoc：TopDocs中的每一个文档，他们只保留着Document的引用。

2010-12-03 18:42:00 2266

转载从概念理解Lucene的Index（索引）文档模型

Lucene主要有两种文档模型：Document和Field，一个Document可能包含若干个Field。 每一个Field有不同的策略： 1.被索引 or not，将该字段（Field）经过分析（Analyisi）后，加入索引中，并不是原文。 2.如果被索引，可选择是否保存“term vector”(向量)，用于相似检索。 3.可选择是否存储(store)，将原文直接拷贝，不做索引，用于检索后的取出。 Lucene中的文档模型类似于数

2010-12-03 17:11:00 6660 3

原创 lucene 抛出的异常

String keyword=".......";//(keyword的长度太长)Query indexQuery = new QueryParser("name",analyzer).parse(keyword);有没有人遇到过上面的查询当 keyword很长时报错的问题？too many boolean clausesQueryParser会将keyword切分为多个TermQuery组成的BooleanQuery.所以当keyword被切成过于1024个时，就会出现刚刚那个异常。查看原因

2010-12-03 15:44:00 1116

转载《Lucene In Action》第四章.Analysis（分词）

原文http://www.coder4.com/archives/761 简单来说，Analysis就是把field Text转化成基本的Term的形式。 通过分词，将Text转化为Token，Token+对应的Field即为Term。 分词的处理包括：萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形（去掉过去时等）等。 本章将介绍如何使用内置的分词器，以及如何根据语言、环境等特点创建自己的分词器。4.1 使用Analysis<br

2010-12-03 15:28:00 1004

转载我的Java学习推荐书目

原文http://www.blogjava.net/killme2008/archive/2010/11/11/337788.html 一直有这么个想法，列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍，给初学者或者想深入的朋友一些建议，帮助成长。推荐的的都是我自己读过，也会推荐一些朋友读过并且口碑不错的书籍。 一、基础类 1、《Thinking in java》，入门第一位是建立正确的概念。 2、《Cor

2010-12-01 13:27:00 762

56.com 视频推荐与大数据架构介绍

2015-09-22

56 solrCloud分布式搜索与索引过程

2014-05-29

hadoop中文教程.pdf

hadoop中文教程，hadoop入门学习

2010-11-15

编程珠玑第二版中英源打包

编程珠玑第二版中英源打包，经典的算法题，读取第一页的时候，深深地被使用bit数组对大数据量快捷的排序方式给吸引住了。。

2010-08-04

sogou 词典搜狗最新词典

sogou 词典搜狗最新词典，对于做分词程序作用。。

2010-05-28

solr1.4 电子书

solr1.4 电子书 lucene Enhance your search with faceted navigation, result highlighting, fuzzy queries, ranked scoring, and more

2010-05-19

lucene3 原理介绍跟代码分析

lucene3 原理介绍跟代码分析全文检索就存在三个重要问题： 1. 索引里面究竟存些什么？(Index) 2. 如何创建索引？(Indexing) 3. 如何对索引进行搜索？(Search) 下面我们顺序对每个个问题进行研究。

2010-04-08

JMS简明教程.pdf

企业消息产品（或者有时称为面向消息的中间件产品）正逐渐成为公司内操作集成的关键组件。这些产品可以将分离的业务组件组合成一个可靠灵活的系统。除了传统的MOM 供应商，企业消息产品也可以由数据库供应商和许多与网络相关的公司来提供。 Java 语言的客户端和Java 语言的中间层服务必须能够使用这些消息系统。JMS 为Java 语言程序提供了一个通用的方式来获取这些系统。 JMS 是一个接口和相关语义的集合，那些语义定义了JMS 客户端如何获取企业消息产品的功能。由于消息是点对点的，所以JMS 的所有用户都称为客户端（clients）。JMS 应用由定义消息的应用和一系列与他们交互的客户端组成

2010-03-15

Java JDK6学习笔记.pdf

很好的一本JAVA书籍，很适合初学者~ 一本好的启蒙书，让你少走更多的弯路~

2009-05-04

lucene做的桌面搜索

这个程序是用java做的桌面搜索，利用lucene API技术完成建立索引跟搜索功能，其它大部分功能是仿照火速搜索软件的，请大家多多指教，因为没时间完善，所以还存在很多缺点，特别是界面运行就比较慢~

2009-05-04

RCP程序设计.pdf

对做eclipse的插件感兴趣的好东西 RCP 富客户端的入门第一手资料

2009-04-06

精通Struts(Word版).pdf

精通 Struts 中文版孙卫琴经典书籍

2009-03-28

JSF+in+Action中文版.pdf

JSF 经典书籍我希望JavaServer Faces in Action 能够激发你如我一般对此技术的热情，并且成为你自己项目开发的有用工具本书是针对那些正在开发 Java web 应用的人— 架构师，应用开发人员和前端开发人员。在我看来，架构师关心的是应用的设计，使用哪种技术，以及开发过程如何运作。开发人员则构建模型对象，应用逻辑等等，而前端开发人员则具体构建GUI，通常使用象JSP 或者Velocity 之类的显示技术。在某些团队中，这些角色可能由相同的人承担，或者不同的角色具有重叠的技能要求。JSF 是一个 web 应用框架，类似于Struts, WebWork, 或者Tapestry，但是本书即使你之前从没有用过一种Web 框架也是可读的。