hadoop
iteye_15756
这个作者很懒,什么都没留下…
展开
-
Hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个j...原创 2013-05-29 13:47:48 · 223 阅读 · 0 评论 -
Hadoop中map数的计算
Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))...原创 2013-06-01 20:54:33 · 91 阅读 · 0 评论 -
hadoop命令
hadoop fsck /wordcount -files -blocks -locations 查看一个文件在hdfs上的方便情况原创 2013-10-13 16:31:27 · 93 阅读 · 0 评论 -
DistributedCache In Hadoop
分布式缓存在MapReduce中称之为DistributedCache,它可以方便map task之间或者reduce task之间共享一些信息,同时也可以将第三方包添加到其classpath路径中去。Hadoop会将缓存数据分发到集群的所有准备启动的节点上,复制到在mapred.temp.dir中配置的目录。 2、DistributedCache的使用DistributedC...原创 2013-10-29 11:47:39 · 125 阅读 · 0 评论 -
分析和优化云集群性能
http://blog.csdn.net/azhao_dn/article/details/7091603 http://blog.csdn.net/wf1982/article/details/6572073原创 2013-10-31 17:04:04 · 83 阅读 · 0 评论 -
ambari
安装ambari 前置步骤: centos6.5 关闭iptables; 关闭SELinux; # yum clean all# yum update openssl vim /etc/resolv.confnameserver 8.8.8.8 id_rsa原创 2014-03-06 17:22:34 · 86 阅读 · 0 评论