- 博客(209)
- 资源 (14)
- 收藏
- 关注
原创 solr SearchHandler扩展,解决httpclient连接问题以及对连接异常的容错处理
solr SearchHandler扩展,解决httpclient连接问题以及对连接异常的容错处理solr 1.4在分布式搜索时,如果有一台机请求失败,默认会重连3次,如果还是失败,那么整个结果就会抛出异常。异常如下:2012-8-28 11:46:04 org.apache.commons.httpclient.HttpMethodDirector
2012-08-28 16:06:46
10815
原创 solr 4.0 BETA发布,希望一个月后可以见到正式版出来
官方发布的改动:http://lucene.apache.org/solr/solrnews.htmlSee the CHANGES.txt file included with the release for a full list of details.基于4.0-alpha主要的改动如下:Added a Collection management API
2012-08-16 00:19:21
2882
转载 JDK自带VM分析工具jps,jstat,jmap,jconsole
原文:JDK自带VM分析工具jps,jstat,jmap,jconsole一、概述 SUN 的JDK中的几个工具,非常好用。秉承着有免费,不用商用的原则。以下简单介绍一下这几种工具。(注:本文章下的所有工具都存在JDK5.0以上版本的工具集里,同javac一样,不须特意安装) 。 我一共找到以下四个工具:重点看看
2012-08-15 10:44:37
978
原创 solr newSearcher 跟 firstSearcher的监听器扩展
自定义SolrEventListener实现searcher的autowarm策略在solrconfig.xml上可以配置在newSearcher和firstSearcher的监听器,在事件触发时,可以做某些热身搜索,让Searcher做好准备提供服务,特别是服务重启的时候,如果没有做好热身,开始提供服务搜索时都很勉强。但原生的配置比较麻烦,如果要做多个搜索请求时,单纯在配置文
2012-08-14 00:32:56
3938
原创 solr DocumentCache的问题
发现如果不使用Document Cache的时候,solr内部还是会调用两次 第一次,在QueryComponent里会有处理搜索,取得result,除了内部lucene id外,会调用doPrefetch方法,取出doc文档 放在DocumentCache缓存里,便于下次使用,如果当前没有使用DocumentCache的话,发现还是会调用该方法去拿Document出来。。
2012-08-13 15:17:44
2732
原创 测试tomcat同solr的连接
上一篇文章讲到solr连接问题分析:solr1.4 中SearchHandler使用的httpclient在高并发可能出现的问题现在做一次测试:tomcat Connector的配置如下:暂时为BIO方式 <Connector port="8080" protocol="HTTP/1.1" maxThreads="20" socket.soTimeout=
2012-08-09 15:59:03
3557
原创 solr1.4 中SearchHandler使用的httpclient在高并发可能出现的问题
solr 1.4 中使用的分布式搜索,是基于httpclient发出分布结点的请求,主要实现在SearchHandler类,该类里有个内部类HttpCommComponent里面有一个httpclient ,是一个静态实例,也就是说在同一个jvm里只有一个实例,可以重复使用,主要代码:static HttpClientclient;static {Multi
2012-08-07 15:47:20
11181
转载 查看linux服务器硬盘IO读写负载
原文:http://linux.chinaitlab.com/server/819948.html最近一台linux服务器出现异常,系统反映很慢,相应的应用程序也无法反映,而且还出现死机的情况,经过几天的观察了解,发现服务器压力很大,主要的压力来自硬盘的IO访问已经达到100% 为了方便各位和自己今后遇到此类问题能尽快解决,我这里将查看linux服务器硬盘IO访问负荷
2012-08-06 10:27:20
1046
转载 TOP命令详解
原文http://rockhooray.blog.51cto.com/938613/832621一 概述在终端中可以查看top命令的路径和所属软件包。top程序对运行的系统提供一个动态的实时的监控。它能够显示系统的总体信息和一些正被Linux内核管理的任务。它所显示的系统总体信息的样式以及任务信息显示的样式,顺序和大小都是可以由用户配置,而且配置信息可以重启后永久生
2012-08-06 10:26:18
1520
转载 用Homebrew替换MacPorts
原文:用Homebrew替换MacPortsMacPorts和Homebrew都是Mac OS X上的软件包管理工具 (via Wikipedia),且它们之间是不兼容的.个中好处就不介绍了,这里要说的是删除MacPorts并安装Homebrew.准备条件:Mac是自带Ruby程式的,如果你之间”处理”过它,记得要确保它的存在.用ruby -v查看下版本号.安装xcod
2012-07-11 12:34:42
1588
原创 solrCloud相关学习资料
solrCloud初探solrCloud官方wikiNew SolrCloud Designusing-solr-cloud-for-real-jon-giffordsolr cloud concepts
2012-07-10 18:42:25
1813
转载 URL特殊符号的处理
有些符号在URL中是不能直接传递的,如果要在URL中传递这些特殊符号,那么就要使用他们的编码了。编码的格式为:%加字符的ASCII码,即一个百分号%,后面跟对应字符的ASCII(16进制)码值。例如 空格的编码值是"%20"。如果不使用转义字符,这些编码就会当URL中定义的特殊字符处理。下表中列出了一些URL特殊符号及编码 十六进制值1.+ URL 中+号表示空格 %2B
2012-07-09 18:13:07
1097
转载 linux下命令行设置jar包路径的脚本
linux下命令行设置jar包路径的脚本 PWD=`pwd`for i in ../lib/*.jar;do classpath=$PWD/$i:"$classpath";done#echo $classpathclasspath=/home/nlp/classes:$classpath
2012-07-05 16:49:55
1441
原创 solr4.0已发布ALPHA版。。离正式版本不久了。。
Solr 4.0-ALPHA was released on 3 Jul 2012 http://t.cn/zWqE2iB还有两个月。。。出正式版本列出几个重要的改动跟新增的功能 :SolrCloud:* SOLR-1873, SOLR-2358: SolrCloud - added shared/central config and core/shard m
2012-07-05 16:01:52
1529
原创 看nutch学习hadoop的编程
刚下了最新版本的nutch1.0.*,发现nutch的搜索已经转由solr来实现了。nutch上有很多hadoop的应用,可以作为案例学习,看人家如何使用hadoop来实现,这对于刚接触hadoop编程的人来说,这是一个比较好的选择,怎么说nutch也算是hadoop的起源地。。。新版本的nutch使用的hadoop也是比较新的版本。。看一下nutch的index模块,使用的hadoo
2012-07-03 13:27:57
2021
原创 hadoop学习(mac 上安装 hadoop伪分布式以及hadoop的eclipse插件)
mac上安装 hadoophttp://andy-ghg.iteye.com/blog/1165453安装后运行bin/hadoop namenode -format 抛出一个warn:2012-06-29 23:28:25.852 java[3256:1903] Unable to load realm info from SCDynamicStore
2012-06-29 23:14:47
6451
转载 Hive的JDBC方式编程
原文 http://user.qzone.qq.com/165162897/blog/1276050795#!app=2&pos=12760507951.启动hiveServer./hive --service hiveserver2.编写jdbc代码(hiveExample.java)import java.sql.SQLException;im
2012-06-27 10:56:59
2510
原创 优化solr全量建索引,减少索引时间
优化solr全量建索引主要优化从数据库取数据这一块。先简单为读取某个单表数据:该表数据很多娄,数据库为MySQL。旧的建索引设计:之前的设计是分段读取数据,可以按自增主键分段或者按记录更新的时间截分段取。但由于数据模型是可增删改查,这种更新会导致按自增id的数据在有些地方比较稀疏,而按记录的更新时间截,也有可能在某个时间段里更新大量数据,所以也会有不同时间段数据过稀或者
2012-06-25 21:08:48
13836
转载 基于Solr和Zookeeper的分布式搜索方案SolrCloud
http://no1zhangye-hotmail-com.iteye.com/blog/1420316 SolrCloud 是基于Solr和Zookeeper的分布式搜索方案,是正在开发中的Solr4.0的核心组件之一,它的主要思想是使用Zookeeper作为集群的配置信息中心。 它有几个特色功能: 1)集中式的配置信息
2012-06-09 00:14:44
21306
转载 文档与笔记利器 reStructuredText 和 Sphinx
原文http://qixinglu.com/archives/note_tools_restructuredtext_sphinx文档与笔记利器 reStructuredText 和 Sphinx28六 2011# 作者: 投稿/转载 / 本文采用CC BY-NC-SA 2.5协议授权,转载请注明本文链接。本文转载自七星庐 [ 原文:
2012-06-03 23:06:07
5309
原创 学习cpp的笔记
统计小写字母各个字符出现的次数:#include using namespace std;int main() { const string *_input=new string("abcedasdfasgeaegqwggqewhewqqhweasdgashqwehq"); const string &input=*_input; int count[26]={0};
2012-06-03 20:59:05
813
原创 java 进程间的通信
文件锁相关资料内存映射(mapped memory):内存映射允许任何多个进程间通信,每一个使用该机制的进程通过把一个共享的文件映射到自己的进程地址空间来实现它。以下程序同时运行,遇到0时写1,遇到1时写0 的次数。。最后可以看到打印的结果 ,写1的次数跟写0的次数。package org.yzy;import java.io.RandomAccessFile;
2012-05-24 17:39:15
1824
原创 lucene实现的top k优先队列PriorityQueue简单原理
Lucene里使用比较多的一种集合就是这个PriorityQueue比如取前10条相关结果。jdk本身也有一个优先级队列,为什么lucene要实现自己的呢。。后面看了jdk的 PriorityQueue ,它是使用最大堆来实现的,而且它的长度是什么可以变长的,就是如果我要一个top k的数据,但它会将所有数据都存起来,当然小数据无所谓,但如果达到几十万,几百万的时候
2012-05-23 23:16:51
3451
原创 lucene按某个字段排序代码解析
对于lucene来说,索引目录下有多个索引段,那么对应的每个索引段有相对应的reader.这些reader它们之间是完全独立的,数据是独立的,搜索是独立的。现在看一下按某个字段排序的收集器是如何做的 private static class OneComparatorScoringMaxScoreCollector extends OneComp
2012-04-13 18:49:14
2360
原创 solr3.6已发布
Apache Solr 3.6 发布了,该版本包含大量的 bug 修复、优化和改进,下载地址:http://lucene.apache.org/solr/mirrors-solr-latest-redir.html 主要改进内容: * 新的 SolrJ 客户端连接器,基于 Apache 的 HTTPComonents 的 HTTPClient API (SO
2012-04-13 11:21:09
1550
转载 FieldCache在lucene中使用的代码解析,使用场景个人分析
http://moshalanye.iteye.com/blog/281379这篇文章的由来是在寻求lucene的搜索的性能提高的过程中成形的, 感谢所有所以给于我帮助的朋友,在baseworld的提示下,我仔细翻阅了代码, 于是想把自己的一些收获和想法写出来,希望对在学习的人提供帮助, 更希望有人不吝啬手中的砖头,指正我的想法 FieldCache为Fie
2012-04-11 17:12:58
3394
转载 Eclipse插件:Eclipse Color Theme
http://junnan.org/blog/1329一个很赞的eclipse插件,可以简单方便地实现eclipse下的代码配色。另外插件作者还专门为此插件做了一个eclipse配色网站,配色多达728个,开发者们也可以在此网站分享自己的配色方案。在FDT4中的效果:插件设置界面:安装方法:如果是Eclipse 3.6
2012-04-10 11:41:13
1005
转载 Scaling Lucene and Solr
虽然这篇是英文的,但它真的讲的很不错,作者围绕着“怎样提高性能和扩展lucene的规模”这个话题讲述如何利用“索引拷贝”、“分布式搜索”、“内存缓存”达到目的。也展示许多搜索上的技巧,如“omitNorms”,“Stop Words”的应用。原文链接:http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articl
2012-04-06 23:05:58
2337
原创 使用素数解决表示多个标签组合查询
某一个商品可能有多个标签属性,比如A,B,C,D,E,F,G,H每个属性分别有出现与不出现的情况。。所有是一个组合的关系 。用一个二进制的字符串或者数字来表示出现与不出现,但是这样要搜索包含某个标签 的时候,得枚举所有的情况,然后以OR的关系去搜索。这样肯定麻烦。。既然要为了存储与索引搜索方便,我暂时想用素数来解决。。对每一个标签分配一个素数,比如A-》2,B->3,C->5,D-
2012-04-06 00:56:43
2847
2
转载 JVM内存管理:深入Java内存区域与OOM
jvm垃圾回收http://www.tbdata.org/archives/1773原文:http://hllvm.group.iteye.com/group/wiki/2857-JVMJava与C++之间有一堵由内存动态分配和垃圾收集技术所围成的高墙,墙外面的人想进去,墙里面的人却想出来。 概述:对于从事C、C++程序开发的开发人员来说,在内存管理领域
2012-03-13 11:15:15
846
原创 读lucene的索引段代码笔记
先理清各个主要类的职责:先从小到大,抽象到具体org.apache.lucene.index.SegmentInfos些类封装了某个索引目录下的所有索引段文件信息,主要跟文件系统打交道org.apache.lucene.index.SegmentReader此类负责读取某一个索引段的所有文件org.apache.lucene.index.
2012-03-12 22:55:34
1448
原创 lucene 的字段缓存
static final class StringIndexCache extends Cache { StringIndexCache(FieldCacheImpl wrapper) { super(wrapper); } @Override protected Object createValue(IndexReader reader, Entr
2012-03-08 11:55:29
1132
原创 solr 竞价排名
借助solr 的QueryElevationComponent实现竞价排名,相关的wiki如下:http://wiki.apache.org/solr/QueryElevationComponent相关配置:在$solr_home/data/目录或者在$solr_home/conf/目录下加入文件elevate.xml, 内容如下 然后配置下
2012-03-07 16:48:24
3026
转载 Java获取自身PID方法搜集
http://blog.csdn.net/jsutluo/article/details/6860855Java获取自身PID方法搜集: 其中如下方法在与SUN JDK兼容的虚拟机上是可以正常获取的。第一种,来自:http://rednaxelafx.iteye.com/blog/716918Java标准库里常见的公有API确实是没有获取当前进程的ID的
2012-02-24 21:44:18
1270
原创 nohup命令使用
nohup 命令用途:不挂断地运行命令。语法:nohup Command [ Arg … ] [ & ]描述:nohup 命令运行由 Command 参数和任何相关的 Arg 参数指定的命令,忽略所有挂断(SIGHUP)信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令,添加 & ( 表示”and”的符号)到命令的尾部。无论是否将 nohup 命
2012-02-21 17:31:39
982
原创 sensei学习记录
sensei官网sensei分布式实时搜索系统介绍 sensei分布式实时搜索系统源码解析(一) senseiServer的启动及若干概念 sensei分布式实时搜索系统源码解析(二) 分布式Search的流程 sensei分布式实时搜索系统源码解析(三) 分布式index
2012-02-20 11:10:58
1060
转载 学习笔记
Java编程最差实践http://macrochen.iteye.com/blog/1393502 正确使用日志的10个技巧http://macrochen.iteye.com/blog/1399082Zookeeper开源客户端框架Curator简介http://macrochen.iteye.com/blog/1366136
2012-02-13 16:10:13
541
原创 利用JOOR简单编写java的反射
利用JOOR第三方包实现简洁的反射,JOOR 可以访问http://code.google.com/p/joor/废话少说,直接上代码 :import org.joor.Reflect;public class People { public String name; public People(String name ) { super();
2012-02-13 15:02:12
2529
原创 zoie-solr插件修改:ZoieUpdateHandler
package proj.zoie.solr;import it.unimi.dsi.fastutil.longs.LongArrayList;import it.unimi.dsi.fastutil.longs.LongList;import java.io.IOException;import java.net.URL;import java.util.ArrayList;im
2012-01-05 13:50:23
1189
转载 JAVA使用EPoll来进行NIO处理的方法(转)
http://lelong.iteye.com/blog/1265731JDK 6.0 以及JDK 5.0 update 9 的 nio支持epoll (仅限 Linux 系统 ),对并发idle connection会有大幅度的性能提升,这就是很多网络服务器应用程序需要的。启用的方法如下:-Djava.nio.channels.spi.SelectorProvider=s
2011-12-26 16:55:03
2019
JMS简明教程.pdf
2010-03-15
lucene3 原理介绍跟代码分析
2010-04-08
lucene做的桌面搜索
2009-05-04
JSF+in+Action中文版.pdf
2009-03-28
56 solrCloud分布式搜索与索引过程
2014-05-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人