2015年09月_春夏秋冬又一年

11月 10月 09月 08月 07月 06月 05月

转载 hbase 性能调优

转载自：hbase性能调优一、服务端调优 1、参数配置 1）hbase.regionserver.handler.count：该设置决定了处理RPC的线程数量，默认值是10，通常可以调大，比如：150，当请求内容很大（上MB，比如大的put、使用缓存的scans）的时候，如果该值设置过大则会占用过多的内存，导致频繁的GC，或者出现OutOfMe

2015-09-30 09:53:22 1053

转载 HBase java关键API

转载自 hbase java api几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库（DataBase)HBaseConfigurationHTable表（Table)HTableDescriptor列族（Colu

2015-09-30 09:49:54 466

原创 hadoop集群部署，内存，存储配置

翻译自：http://blog.octo.com/en/hadoop-in-my-it-department-how-to-plan-a-cluster/ 和http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/一推荐配置每100万块

2015-09-21 11:16:11 1735

原创 kafka关键问题解释

1 Kafka如何处理消费过的消息(1) 如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列，只要一有producer生产数据，那consumer就会将数据消费。当然这里会产生一个很严重的问题，如果你重启一消费者程序，那你连一条数据都抓不到，但是log文件中明明可以看到所有数据都好好的存在。换句话说，一旦你消费过这些数据，那你就无法再次用同一个groupid消费同一组

2015-09-09 16:41:51 1347

原创 pig优化器之一（翻译pig wiki）：combiner使用

Combiner

2015-09-04 22:14:32 890

原创 pig脚本总结

1 如果在宏中需要使用UDF，无需再宏中注册和定义该UDF，直接使用即可。因为pig的宏相当于直接将宏的代码与调用该宏的代码合并之后执行。2 宏中传入的字段解析错误。比如传入的日期字段，会莫名其妙的被解析为1970年的时间，比如： define public_flow_and_usernum_statistic (grouped_data,sel_data,date_time ,

2015-09-02 09:46:13 1618

hadoop-2.5.2 和eclipse插件

hadoop eclipse插件

2015-10-22

文本相似度论文和网页查重

各种文本相似度论文，包含网页查重的论文。

2013-07-30

兼容lucene 3.5的paoding包

原本由好山西人才在线分享。自己亲身实验成功，不用SVN和ant

2013-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人