- 博客(6)
- 资源 (14)
- 收藏
- 关注
转载 分布式计算开源框架Hadoop入门实践(一)
原文http://www.infoq.com/cn/articles/hadoop-intro 在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQ
2010-09-30 11:30:00 950
转载 java.lang.OutOfMemoryError: Java heap space 解决方法
<br /> <br />使用Java程序从数据库中查询大量的数据时出现异常:<br />java.lang.OutOfMemoryError: Java heap space<br /><br />在JVM中如果98%的时间是用于GC且可用的 Heap size 不足2%的时候将抛出此异常信息。<br />JVM堆的设置是指java程序运行过程中JVM可以调配使用的内存空间的设置.<br />JVM在启动的时候会自动设置Heap size的值,其初始空间(即-Xms)是物理内存的1/64,最大空间
2010-09-30 11:18:00 3067
转载 MongoDB auto shard介绍
[转载]MongoDB auto shard介绍归类于: 默认分类 — zhaigy @ 3:55 pm 编辑此文<br />mongodb 从v1.6开始支持auto-shard,这无疑给管理工作带来了很大方便。<br />Mongodb可以实现负载均衡和故障自动切换<br /> <br />一、Mongodb 自动分片<br />1、shard简介<br />Shard指的是水平方向的多节点数据分散存储。例如:我们可以将不同省份居民信息存储到不同的shard server中。<br />应用程序可
2010-09-28 16:26:00 1606
原创 统计外站的搜索关键词的词频
统计外站的搜索关键词的词频 通过外站的链接主要是百度,谷歌,soso等,每天都有通过记录在日志文件中,每天会运行程序进行统计。每天产生有10多个文件,每个文件1G左右, 每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。要按照解析query中的关键词,并对统计其频度,取出搜索次数最多的前1000个关键词。第一次直接遍历所有文件并按照Map方式
2010-09-28 16:03:00 2493
转载 eclipse升级而不影响自定义插件的方法
eclipse升级而不影响自定义插件的方法<br />从我一开始用eclipse,就是3.1的m5版,到正式版出来前的m6, m7, rc1, rc2, rc3, rc4 经历了无数次的升级。也总结了一些经验,可以轻松升级系统而不用担心插件重装的困扰。<br />首先,非eclipse自带的插件都应该安装在eclipse以外的目录,用link的方法安装。比如我就放在c:/ec_plugins 下面. 有的程序用安装的或者eclipse的update的方式安装的,可以选择目录。有的插件就是一个zip包或者
2010-09-20 16:22:00 2888
转载 lucene Analyzer
1、抽象类Analyzer<br />其主要包含两个接口,用于生成TokenStream:TokenStream tokenStream(String fieldName, Reader reader); TokenStream reusableTokenStream(String fieldName, Reader reader) ; <br />所谓TokenStream,后面我们会讲到,是一个由分词后的Token结果组成的流,能够不断的得到下一个分成的Token。<br />为了提高性能,使得
2010-09-16 11:21:00 1963
56 solrCloud分布式搜索与索引过程
2014-05-29
solr1.4 电子书
2010-05-19
lucene3 原理介绍跟代码分析
2010-04-08
JMS简明教程.pdf
2010-03-15
lucene做的桌面搜索
2009-05-04
JSF+in+Action中文版.pdf
2009-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人