搜索引擎、个性化推荐、大数据相关学习笔记|

工作多年在搜索、推荐算法、大数据这块领域深扎，业务与技术不断积累与成长，对业务、技术、算法有独道的思考

原创 solr SearchHandler扩展，解决httpclient连接问题以及对连接异常的容错处理

solr SearchHandler扩展，解决httpclient连接问题以及对连接异常的容错处理solr 1.4在分布式搜索时，如果有一台机请求失败，默认会重连3次，如果还是失败，那么整个结果就会抛出异常。异常如下：2012-8-28 11:46:04 org.apache.commons.httpclient.HttpMethodDirector

2012-08-28 16:06:46 10815

原创 solr 4.0 BETA发布，希望一个月后可以见到正式版出来

官方发布的改动：http://lucene.apache.org/solr/solrnews.htmlSee the CHANGES.txt file included with the release for a full list of details.基于4.0-alpha主要的改动如下：Added a Collection management API

2012-08-16 00:19:21 2882

转载 JDK自带VM分析工具jps，jstat，jmap，jconsole

原文：JDK自带VM分析工具jps，jstat，jmap，jconsole一、概述 SUN 的JDK中的几个工具，非常好用。秉承着有免费，不用商用的原则。以下简单介绍一下这几种工具。(注：本文章下的所有工具都存在JDK5.0以上版本的工具集里，同javac一样，不须特意安装) 。我一共找到以下四个工具：重点看看

2012-08-15 10:44:37 978

原创 solr newSearcher 跟 firstSearcher的监听器扩展

自定义SolrEventListener实现searcher的autowarm策略在solrconfig.xml上可以配置在newSearcher和firstSearcher的监听器，在事件触发时，可以做某些热身搜索，让Searcher做好准备提供服务,特别是服务重启的时候，如果没有做好热身，开始提供服务搜索时都很勉强。但原生的配置比较麻烦，如果要做多个搜索请求时，单纯在配置文

2012-08-14 00:32:56 3938

原创 solr DocumentCache的问题

发现如果不使用Document Cache的时候，solr内部还是会调用两次第一次，在QueryComponent里会有处理搜索，取得result,除了内部lucene id外，会调用doPrefetch方法，取出doc文档放在DocumentCache缓存里，便于下次使用，如果当前没有使用DocumentCache的话，发现还是会调用该方法去拿Document出来。。

2012-08-13 15:17:44 2732

原创测试tomcat同solr的连接

上一篇文章讲到solr连接问题分析：solr1.4 中SearchHandler使用的httpclient在高并发可能出现的问题现在做一次测试：tomcat Connector的配置如下：暂时为BIO方式 <Connector port="8080" protocol="HTTP/1.1" maxThreads="20" socket.soTimeout=

2012-08-09 15:59:03 3557

原创 solr1.4 中SearchHandler使用的httpclient在高并发可能出现的问题

solr 1.4 中使用的分布式搜索，是基于httpclient发出分布结点的请求，主要实现在SearchHandler类，该类里有个内部类HttpCommComponent里面有一个httpclient ，是一个静态实例，也就是说在同一个jvm里只有一个实例，可以重复使用，主要代码：static HttpClientclient;static {Multi

2012-08-07 15:47:20 11181

转载查看linux服务器硬盘IO读写负载

原文：http://linux.chinaitlab.com/server/819948.html最近一台linux服务器出现异常，系统反映很慢，相应的应用程序也无法反映，而且还出现死机的情况，经过几天的观察了解，发现服务器压力很大，主要的压力来自硬盘的IO访问已经达到100%　　为了方便各位和自己今后遇到此类问题能尽快解决，我这里将查看linux服务器硬盘IO访问负荷

2012-08-06 10:27:20 1046

转载 TOP命令详解

原文http://rockhooray.blog.51cto.com/938613/832621一概述在终端中可以查看top命令的路径和所属软件包。top程序对运行的系统提供一个动态的实时的监控。它能够显示系统的总体信息和一些正被Linux内核管理的任务。它所显示的系统总体信息的样式以及任务信息显示的样式，顺序和大小都是可以由用户配置，而且配置信息可以重启后永久生

2012-08-06 10:26:18 1520

转载用Homebrew替换MacPorts

原文：用Homebrew替换MacPortsMacPorts和Homebrew都是Mac OS X上的软件包管理工具 (via Wikipedia),且它们之间是不兼容的.个中好处就不介绍了,这里要说的是删除MacPorts并安装Homebrew.准备条件:Mac是自带Ruby程式的,如果你之间”处理”过它,记得要确保它的存在.用ruby -v查看下版本号.安装xcod

2012-07-11 12:34:42 1588

原创 solrCloud相关学习资料

solrCloud初探solrCloud官方wikiNew SolrCloud Designusing-solr-cloud-for-real-jon-giffordsolr cloud concepts

2012-07-10 18:42:25 1813

转载 URL特殊符号的处理

有些符号在URL中是不能直接传递的，如果要在URL中传递这些特殊符号，那么就要使用他们的编码了。编码的格式为：%加字符的ASCII码，即一个百分号%，后面跟对应字符的ASCII（16进制）码值。例如空格的编码值是"%20"。如果不使用转义字符，这些编码就会当URL中定义的特殊字符处理。下表中列出了一些URL特殊符号及编码十六进制值1.+ URL 中+号表示空格 %2B

2012-07-09 18:13:07 1097

转载 linux下命令行设置jar包路径的脚本

linux下命令行设置jar包路径的脚本 PWD=`pwd`for i in ../lib/*.jar;do classpath=$PWD/$i:"$classpath";done#echo $classpathclasspath=/home/nlp/classes:$classpath

2012-07-05 16:49:55 1441

原创 solr4.0已发布ALPHA版。。离正式版本不久了。。

Solr 4.0-ALPHA was released on 3 Jul 2012 http://t.cn/zWqE2iB还有两个月。。。出正式版本列出几个重要的改动跟新增的功能：SolrCloud:* SOLR-1873, SOLR-2358: SolrCloud - added shared/central config and core/shard m

2012-07-05 16:01:52 1529

原创看nutch学习hadoop的编程

刚下了最新版本的nutch1.0.*,发现nutch的搜索已经转由solr来实现了。nutch上有很多hadoop的应用，可以作为案例学习，看人家如何使用hadoop来实现，这对于刚接触hadoop编程的人来说，这是一个比较好的选择，怎么说nutch也算是hadoop的起源地。。。新版本的nutch使用的hadoop也是比较新的版本。。看一下nutch的index模块，使用的hadoo

2012-07-03 13:27:57 2021

原创 hadoop学习(mac 上安装 hadoop伪分布式以及hadoop的eclipse插件)

mac上安装 hadoophttp://andy-ghg.iteye.com/blog/1165453安装后运行bin/hadoop namenode -format 抛出一个warn:2012-06-29 23:28:25.852 java[3256:1903] Unable to load realm info from SCDynamicStore

2012-06-29 23:14:47 6451

转载 Hive的JDBC方式编程

原文 http://user.qzone.qq.com/165162897/blog/1276050795#!app=2&pos=12760507951.启动hiveServer./hive --service hiveserver2.编写jdbc代码（hiveExample.java）import java.sql.SQLException;im

2012-06-27 10:56:59 2510

原创优化solr全量建索引，减少索引时间

优化solr全量建索引主要优化从数据库取数据这一块。先简单为读取某个单表数据：该表数据很多娄，数据库为MySQL。旧的建索引设计：之前的设计是分段读取数据，可以按自增主键分段或者按记录更新的时间截分段取。但由于数据模型是可增删改查，这种更新会导致按自增id的数据在有些地方比较稀疏，而按记录的更新时间截，也有可能在某个时间段里更新大量数据，所以也会有不同时间段数据过稀或者

2012-06-25 21:08:48 13836

转载基于Solr和Zookeeper的分布式搜索方案SolrCloud

http://no1zhangye-hotmail-com.iteye.com/blog/1420316 SolrCloud 是基于Solr和Zookeeper的分布式搜索方案，是正在开发中的Solr4.0的核心组件之一，它的主要思想是使用Zookeeper作为集群的配置信息中心。它有几个特色功能： 1）集中式的配置信息

2012-06-09 00:14:44 21306

转载文档与笔记利器 reStructuredText 和 Sphinx

原文http://qixinglu.com/archives/note_tools_restructuredtext_sphinx文档与笔记利器 reStructuredText 和 Sphinx28六 2011# 作者: 投稿/转载 / 本文采用CC BY-NC-SA 2.5协议授权，转载请注明本文链接。本文转载自七星庐 [ 原文：

2012-06-03 23:06:07 5309

原创学习cpp的笔记

统计小写字母各个字符出现的次数：#include using namespace std;int main() { const string *_input=new string("abcedasdfasgeaegqwggqewhewqqhweasdgashqwehq"); const string &input=*_input; int count[26]={0};

2012-06-03 20:59:05 813

原创 java 进程间的通信

文件锁相关资料内存映射（mapped memory）：内存映射允许任何多个进程间通信，每一个使用该机制的进程通过把一个共享的文件映射到自己的进程地址空间来实现它。以下程序同时运行，遇到0时写1，遇到1时写0 的次数。。最后可以看到打印的结果，写1的次数跟写0的次数。package org.yzy;import java.io.RandomAccessFile;

2012-05-24 17:39:15 1824

原创 lucene实现的top k优先队列PriorityQueue简单原理

Lucene里使用比较多的一种集合就是这个PriorityQueue比如取前10条相关结果。jdk本身也有一个优先级队列，为什么lucene要实现自己的呢。。后面看了jdk的 PriorityQueue ，它是使用最大堆来实现的，而且它的长度是什么可以变长的，就是如果我要一个top k的数据，但它会将所有数据都存起来，当然小数据无所谓，但如果达到几十万，几百万的时候

2012-05-23 23:16:51 3451

原创 lucene按某个字段排序代码解析

对于lucene来说，索引目录下有多个索引段，那么对应的每个索引段有相对应的reader.这些reader它们之间是完全独立的，数据是独立的，搜索是独立的。现在看一下按某个字段排序的收集器是如何做的 private static class OneComparatorScoringMaxScoreCollector extends OneComp

2012-04-13 18:49:14 2360

原创 solr3.6已发布

Apache Solr 3.6 发布了，该版本包含大量的 bug 修复、优化和改进，下载地址：http://lucene.apache.org/solr/mirrors-solr-latest-redir.html 主要改进内容： * 新的 SolrJ 客户端连接器，基于 Apache 的 HTTPComonents 的 HTTPClient API (SO

2012-04-13 11:21:09 1550

转载 FieldCache在lucene中使用的代码解析，使用场景个人分析

http://moshalanye.iteye.com/blog/281379这篇文章的由来是在寻求lucene的搜索的性能提高的过程中成形的，感谢所有所以给于我帮助的朋友，在baseworld的提示下，我仔细翻阅了代码，于是想把自己的一些收获和想法写出来，希望对在学习的人提供帮助，更希望有人不吝啬手中的砖头，指正我的想法 FieldCache为Fie

2012-04-11 17:12:58 3394

转载 Eclipse插件：Eclipse Color Theme

http://junnan.org/blog/1329一个很赞的eclipse插件，可以简单方便地实现eclipse下的代码配色。另外插件作者还专门为此插件做了一个eclipse配色网站，配色多达728个，开发者们也可以在此网站分享自己的配色方案。在FDT4中的效果：插件设置界面：安装方法：如果是Eclipse 3.6

2012-04-10 11:41:13 1005

转载 Scaling Lucene and Solr

虽然这篇是英文的，但它真的讲的很不错，作者围绕着“怎样提高性能和扩展lucene的规模”这个话题讲述如何利用“索引拷贝”、“分布式搜索”、“内存缓存”达到目的。也展示许多搜索上的技巧，如“omitNorms”，“Stop Words”的应用。原文链接：http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articl

2012-04-06 23:05:58 2337

原创使用素数解决表示多个标签组合查询

某一个商品可能有多个标签属性，比如A,B,C,D，Ｅ，Ｆ，Ｇ，Ｈ每个属性分别有出现与不出现的情况。。所有是一个组合的关系。用一个二进制的字符串或者数字来表示出现与不出现，但是这样要搜索包含某个标签的时候，得枚举所有的情况，然后以OR的关系去搜索。这样肯定麻烦。。既然要为了存储与索引搜索方便，我暂时想用素数来解决。。对每一个标签分配一个素数，比如Ａ－》２，B->3,C->5,D-

2012-04-06 00:56:43 2847 2

转载 JVM内存管理：深入Java内存区域与OOM

jvm垃圾回收http://www.tbdata.org/archives/1773原文：http://hllvm.group.iteye.com/group/wiki/2857-JVMJava与C++之间有一堵由内存动态分配和垃圾收集技术所围成的高墙，墙外面的人想进去，墙里面的人却想出来。概述：对于从事C、C++程序开发的开发人员来说，在内存管理领域

2012-03-13 11:15:15 846

原创读lucene的索引段代码笔记

先理清各个主要类的职责：先从小到大，抽象到具体org.apache.lucene.index.SegmentInfos些类封装了某个索引目录下的所有索引段文件信息，主要跟文件系统打交道org.apache.lucene.index.SegmentReader此类负责读取某一个索引段的所有文件org.apache.lucene.index.

2012-03-12 22:55:34 1448

原创 lucene 的字段缓存

static final class StringIndexCache extends Cache { StringIndexCache(FieldCacheImpl wrapper) { super(wrapper); } @Override protected Object createValue(IndexReader reader, Entr

2012-03-08 11:55:29 1132

原创 solr 竞价排名

借助solr 的QueryElevationComponent实现竞价排名，相关的wiki如下：http://wiki.apache.org/solr/QueryElevationComponent相关配置：在$solr_home/data/目录或者在$solr_home/conf/目录下加入文件elevate.xml，内容如下然后配置下

2012-03-07 16:48:24 3026

转载 Java获取自身PID方法搜集

http://blog.csdn.net/jsutluo/article/details/6860855Java获取自身PID方法搜集：其中如下方法在与SUN JDK兼容的虚拟机上是可以正常获取的。第一种，来自：http://rednaxelafx.iteye.com/blog/716918Java标准库里常见的公有API确实是没有获取当前进程的ID的

2012-02-24 21:44:18 1270

原创 nohup命令使用

nohup 命令用途：不挂断地运行命令。语法：nohup Command [ Arg … ] [　& ]描述：nohup 命令运行由 Command 参数和任何相关的 Arg 参数指定的命令，忽略所有挂断（SIGHUP）信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令，添加 & （表示”and”的符号）到命令的尾部。无论是否将 nohup 命

2012-02-21 17:31:39 982

原创 sensei学习记录

sensei官网sensei分布式实时搜索系统介绍 sensei分布式实时搜索系统源码解析(一) senseiServer的启动及若干概念 sensei分布式实时搜索系统源码解析(二) 分布式Search的流程 sensei分布式实时搜索系统源码解析(三) 分布式index

2012-02-20 11:10:58 1060

转载学习笔记

Java编程最差实践http://macrochen.iteye.com/blog/1393502　正确使用日志的10个技巧http://macrochen.iteye.com/blog/1399082Zookeeper开源客户端框架Curator简介http://macrochen.iteye.com/blog/1366136

2012-02-13 16:10:13 541

原创利用JOOR简单编写java的反射

利用JOOR第三方包实现简洁的反射，JOOR　可以访问http://code.google.com/p/joor/废话少说，直接上代码：import org.joor.Reflect;public class People { public String name; public People(String name ) { super();

2012-02-13 15:02:12 2529

原创 zoie-solr插件修改：ZoieUpdateHandler

package proj.zoie.solr;import it.unimi.dsi.fastutil.longs.LongArrayList;import it.unimi.dsi.fastutil.longs.LongList;import java.io.IOException;import java.net.URL;import java.util.ArrayList;im

2012-01-05 13:50:23 1189

转载 JAVA使用EPoll来进行NIO处理的方法(转)

http://lelong.iteye.com/blog/1265731JDK 6.0 以及JDK 5.0 update 9 的 nio支持epoll （仅限 Linux 系统），对并发idle connection会有大幅度的性能提升，这就是很多网络服务器应用程序需要的。启用的方法如下：-Djava.nio.channels.spi.SelectorProvider=s

2011-12-26 16:55:03 2019

RCP程序设计.pdf

对做eclipse的插件感兴趣的好东西 RCP 富客户端的入门第一手资料

2009-04-06

Java JDK6学习笔记.pdf

很好的一本JAVA书籍，很适合初学者~ 一本好的启蒙书，让你少走更多的弯路~

2009-05-04

企业消息产品（或者有时称为面向消息的中间件产品）正逐渐成为公司内操作集成的关键组件。这些产品可以将分离的业务组件组合成一个可靠灵活的系统。除了传统的MOM 供应商，企业消息产品也可以由数据库供应商和许多与网络相关的公司来提供。 Java 语言的客户端和Java 语言的中间层服务必须能够使用这些消息系统。JMS 为Java 语言程序提供了一个通用的方式来获取这些系统。 JMS 是一个接口和相关语义的集合，那些语义定义了JMS 客户端如何获取企业消息产品的功能。由于消息是点对点的，所以JMS 的所有用户都称为客户端（clients）。JMS 应用由定义消息的应用和一系列与他们交互的客户端组成

2010-03-15

lucene3 原理介绍跟代码分析

lucene3 原理介绍跟代码分析全文检索就存在三个重要问题： 1. 索引里面究竟存些什么？(Index) 2. 如何创建索引？(Indexing) 3. 如何对索引进行搜索？(Search) 下面我们顺序对每个个问题进行研究。

2010-04-08

56.com 视频推荐与大数据架构介绍

2015-09-22

sogou 词典搜狗最新词典

sogou 词典搜狗最新词典，对于做分词程序作用。。

2010-05-28

hadoop中文教程.pdf

hadoop中文教程，hadoop入门学习

2010-11-15

lucene做的桌面搜索

这个程序是用java做的桌面搜索，利用lucene API技术完成建立索引跟搜索功能，其它大部分功能是仿照火速搜索软件的，请大家多多指教，因为没时间完善，所以还存在很多缺点，特别是界面运行就比较慢~

2009-05-04

JSF+in+Action中文版.pdf

JSF 经典书籍我希望JavaServer Faces in Action 能够激发你如我一般对此技术的热情，并且成为你自己项目开发的有用工具本书是针对那些正在开发 Java web 应用的人— 架构师，应用开发人员和前端开发人员。在我看来，架构师关心的是应用的设计，使用哪种技术，以及开发过程如何运作。开发人员则构建模型对象，应用逻辑等等，而前端开发人员则具体构建GUI，通常使用象JSP 或者Velocity 之类的显示技术。在某些团队中，这些角色可能由相同的人承担，或者不同的角色具有重叠的技能要求。JSF 是一个 web 应用框架，类似于Struts, WebWork, 或者Tapestry，但是本书即使你之前从没有用过一种Web 框架也是可读的。

2009-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

RCP程序设计.pdf

Java JDK6学习笔记.pdf

JMS简明教程.pdf

lucene3 原理介绍跟代码分析

56.com 视频推荐与大数据架构介绍

sogou 词典 搜狗最新词典

hadoop中文教程.pdf

lucene做的桌面搜索

JSF+in+Action中文版.pdf

精通Struts(Word版).pdf

编程珠玑第二版中英源打包

56 solrCloud分布式搜索与索引过程

空空如也

sogou 词典搜狗最新词典