搜索引擎、个性化推荐、大数据相关学习笔记|

工作多年在搜索、推荐算法、大数据这块领域深扎，业务与技术不断积累与成长，对业务、技术、算法有独道的思考

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载分布式计算开源框架Hadoop入门实践（一）

原文http://www.infoq.com/cn/articles/hadoop-intro 在SIP项目设计的过程中，对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计，在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单，所以就采用Memcache作为计数器，结合MySQ

2010-09-30 11:30:00 950

转载 java.lang.OutOfMemoryError: Java heap space 解决方法

使用Java程序从数据库中查询大量的数据时出现异常: java.lang.OutOfMemoryError: Java heap space 在JVM中如果98％的时间是用于GC且可用的 Heap size 不足2％的时候将抛出此异常信息。 JVM堆的设置是指java程序运行过程中JVM可以调配使用的内存空间的设置. JVM在启动的时候会自动设置Heap size的值，其初始空间(即-Xms)是物理内存的1/64，最大空间

2010-09-30 11:18:00 3067

转载 MongoDB auto shard介绍

[转载]MongoDB auto shard介绍归类于：默认分类 — zhaigy @ 3:55 pm 编辑此文 mongodb 从v1.6开始支持auto-shard，这无疑给管理工作带来了很大方便。 Mongodb可以实现负载均衡和故障自动切换 一、Mongodb 自动分片 1、shard简介 Shard指的是水平方向的多节点数据分散存储。例如：我们可以将不同省份居民信息存储到不同的shard server中。 应用程序可

2010-09-28 16:26:00 1606

原创统计外站的搜索关键词的词频

统计外站的搜索关键词的词频通过外站的链接主要是百度，谷歌，soso等，每天都有通过记录在日志文件中，每天会运行程序进行统计。每天产生有10多个文件，每个文件1G左右，每个文件的每一行都存放的是用户的query，每个文件的query都可能重复。要按照解析query中的关键词，并对统计其频度，取出搜索次数最多的前1000个关键词。第一次直接遍历所有文件并按照Map方式

2010-09-28 16:03:00 2493

转载 eclipse升级而不影响自定义插件的方法

eclipse升级而不影响自定义插件的方法 从我一开始用eclipse，就是3.1的m5版，到正式版出来前的m6, m7, rc1, rc2, rc3, rc4 经历了无数次的升级。也总结了一些经验，可以轻松升级系统而不用担心插件重装的困扰。 首先，非eclipse自带的插件都应该安装在eclipse以外的目录，用link的方法安装。比如我就放在c:/ec_plugins 下面. 有的程序用安装的或者eclipse的update的方式安装的，可以选择目录。有的插件就是一个zip包或者

2010-09-20 16:22:00 2888

转载 lucene Analyzer

1、抽象类Analyzer 其主要包含两个接口，用于生成TokenStream：TokenStream tokenStream(String fieldName, Reader reader); TokenStream reusableTokenStream(String fieldName, Reader reader) ; 所谓TokenStream，后面我们会讲到，是一个由分词后的Token结果组成的流，能够不断的得到下一个分成的Token。 为了提高性能，使得

2010-09-16 11:21:00 1963

56.com 视频推荐与大数据架构介绍

2015-09-22

56 solrCloud分布式搜索与索引过程

2014-05-29

hadoop中文教程.pdf

hadoop中文教程，hadoop入门学习

2010-11-15

编程珠玑第二版中英源打包

编程珠玑第二版中英源打包，经典的算法题，读取第一页的时候，深深地被使用bit数组对大数据量快捷的排序方式给吸引住了。。

2010-08-04

sogou 词典搜狗最新词典

sogou 词典搜狗最新词典，对于做分词程序作用。。

2010-05-28

solr1.4 电子书

solr1.4 电子书 lucene Enhance your search with faceted navigation, result highlighting, fuzzy queries, ranked scoring, and more

2010-05-19

lucene3 原理介绍跟代码分析

lucene3 原理介绍跟代码分析全文检索就存在三个重要问题： 1. 索引里面究竟存些什么？(Index) 2. 如何创建索引？(Indexing) 3. 如何对索引进行搜索？(Search) 下面我们顺序对每个个问题进行研究。

2010-04-08

JMS简明教程.pdf

企业消息产品（或者有时称为面向消息的中间件产品）正逐渐成为公司内操作集成的关键组件。这些产品可以将分离的业务组件组合成一个可靠灵活的系统。除了传统的MOM 供应商，企业消息产品也可以由数据库供应商和许多与网络相关的公司来提供。 Java 语言的客户端和Java 语言的中间层服务必须能够使用这些消息系统。JMS 为Java 语言程序提供了一个通用的方式来获取这些系统。 JMS 是一个接口和相关语义的集合，那些语义定义了JMS 客户端如何获取企业消息产品的功能。由于消息是点对点的，所以JMS 的所有用户都称为客户端（clients）。JMS 应用由定义消息的应用和一系列与他们交互的客户端组成

2010-03-15

Java JDK6学习笔记.pdf

很好的一本JAVA书籍，很适合初学者~ 一本好的启蒙书，让你少走更多的弯路~

2009-05-04

lucene做的桌面搜索

这个程序是用java做的桌面搜索，利用lucene API技术完成建立索引跟搜索功能，其它大部分功能是仿照火速搜索软件的，请大家多多指教，因为没时间完善，所以还存在很多缺点，特别是界面运行就比较慢~

2009-05-04

RCP程序设计.pdf

对做eclipse的插件感兴趣的好东西 RCP 富客户端的入门第一手资料

2009-04-06

精通Struts(Word版).pdf

精通 Struts 中文版孙卫琴经典书籍

2009-03-28

JSF+in+Action中文版.pdf

JSF 经典书籍我希望JavaServer Faces in Action 能够激发你如我一般对此技术的热情，并且成为你自己项目开发的有用工具本书是针对那些正在开发 Java web 应用的人— 架构师，应用开发人员和前端开发人员。在我看来，架构师关心的是应用的设计，使用哪种技术，以及开发过程如何运作。开发人员则构建模型对象，应用逻辑等等，而前端开发人员则具体构建GUI，通常使用象JSP 或者Velocity 之类的显示技术。在某些团队中，这些角色可能由相同的人承担，或者不同的角色具有重叠的技能要求。JSF 是一个 web 应用框架，类似于Struts, WebWork, 或者Tapestry，但是本书即使你之前从没有用过一种Web 框架也是可读的。