hadoop
o340176635
这个作者很懒,什么都没留下…
展开
-
hadoop总结
如何安装配置一个Apache的开元hadoop,简述步骤: 1、创建hadoop账户 2、修改ip 3、修改/etc/profile/文件,配置Java的环境变量 4、修改host文件域名 5、安装SSH,配置无秘钥通信 6、解压hadoop,配置hadoop-env.sh、core-site.xml、mapre-site.xml、hdfs-site.sh.原创 2015-07-17 15:45:57 · 295 阅读 · 0 评论 -
hadoop中的调度器总结
hadoop中常用的调度器有三种:1、Fifo:默认的调度器,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。2、计算能力调度器Capacity schedular:支持多个队列,每个队列可配置一定的资源量,每个队列采用FIFO调度策略,为了防止同一个作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源进行限定。调度时,首先按照以下策略选择一个合适队列:计算每个正在原创 2015-07-17 16:19:49 · 2360 阅读 · 0 评论 -
在hadoop2实际生产环境中,为什么还需要SecondeNamenode
SecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenode的准确定义:* The Secondary Namenode is a helper to the primary转载 2015-07-17 20:06:21 · 1227 阅读 · 0 评论 -
mapreduce处理数据倾斜的一些方法
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的转载 2015-07-20 08:28:04 · 1793 阅读 · 0 评论 -
hadoop优化
1. 使用自定义Writable自带的Text很好用,但是字符串转换开销较大,故根据实际需要自定义Writable,注意作为Key时要实现WritableCompareable接口避免output.collect(new Text( ),new Text())提倡key.set( ) value.set( ) output.collect(key,value)前者会产生大量的Tex转载 2015-07-20 09:40:54 · 334 阅读 · 0 评论 -
Hadoop CombineFileInputFormat原理说明
http://blog.sina.com.cn/s/blog_69d9bff30101g1c4.html转载 2015-07-21 10:01:02 · 299 阅读 · 0 评论