自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (3)
  • 收藏
  • 关注

转载 hbase 性能调优

转载自 :hbase性能调优 一、服务端调优  1、参数配置    1)hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMe

2015-09-30 09:53:22 1050

转载 HBase java关键API

转载自 hbase java api 几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) HTableDescriptor 列族(Colu

2015-09-30 09:49:54 466

原创 hadoop集群部署,内存,存储配置

翻译自:http://blog.octo.com/en/hadoop-in-my-it-department-how-to-plan-a-cluster/ 和http://blog.cloudera.com/blog/2013/08/how-to-select-the-right-hardware-for-your-new-hadoop-cluster/ 一 推荐配置 每100万块

2015-09-21 11:16:11 1734

原创 kafka关键问题解释

1 Kafka如何处理消费过的消息 (1)  如果想消费已经被消费过的数据 consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组

2015-09-09 16:41:51 1346

原创 pig优化器之一(翻译pig wiki):combiner使用

Combiner

2015-09-04 22:14:32 890

原创 pig脚本总结

1 如果在宏中需要使用UDF,无需再宏中注册和定义该UDF,直接使用即可。因为pig的宏相当于直接将宏的代码与调用该宏的代码合并之后执行。 2 宏中传入的字段解析错误。比如传入的日期字段,会莫名其妙的被解析为1970年的时间,比如:   define public_flow_and_usernum_statistic (grouped_data,sel_data,date_time ,

2015-09-02 09:46:13 1617

hadoop-2.5.2 和eclipse插件

hadoop eclipse插件

2015-10-22

文本相似度论文和网页查重

各种文本相似度论文,包含网页查重的论文。

2013-07-30

兼容lucene 3.5的paoding包

原本由 好山西人才在线 分享。自己亲身实验成功,不用SVN和ant

2013-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除