- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 hive 优化总结 持续更新
hive 优化总结:使用limit 的时候 可以只扫描部分文件: hive.limit.optimize.enable true Whether to enable to optimization to try a smaller subset of data for simple LIMIT first. hive.limit.row.m
2013-05-30 09:53:19 1630
原创 hadoop集群维护遇到的一些问题【持续更新】
1、向hadoop集群提交一些比较大的任务,集群负载很快就飚起来了,有的达到120多。分析一下,应该是任务起的线程太多了。用jstack看一下,发现每个child的gc线程太多了:达到了18个,一个child的gc线程就要开这么多,难怪负载会飙升。修改提交作业的客户端配置 mapred-site.xml :将child的gc方式设置成串行gc或者将并行gc的线程
2013-05-24 09:33:30 1887
原创 date 命令的一些用法
#!/bin/bashminute=`date +%-M`echo $minutehour=`date +%-H`hour_before=`date -d -1hour +%-H`today=`date +%F`tdate=`date +%Y%m%d`month=`date +%Y%m`timestamp=`date +"%Y-%m-%d %H:%M:%S"
2013-05-13 18:31:38 2046
原创 kafka.common.OffsetOutOfRangeException 问题处理
昨天夜里,storm的一个程序出问题了,诚惶诚恐啊。报kafka.common.OffsetOutOfRangeException 异常:分析一下原因:是由于 kafka-spout 获取kafka的数据的时候获取不到,kafka 的 offset 超出现存的范围。深入分析: 由于storm程序启动的时候,读取kafka数据的方式是从头读取(-2),当ka
2013-05-13 11:15:58 9183 4
Data Science for Business
2016-06-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人