hadoop
那个程序员
要什么样的生活,就去选择!
展开
-
hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比
问题导读:1.DataNode的http服务的端口、ipc服务的端口分别是哪个?2.NameNode的http服务的端口、ipc服务的端口分别是哪个?3.journalnode的http服务的端口、ipc服务的端口分别是哪个?4.ResourceManager的http服务端口是哪个?5.NodeManager的http服务端口是哪个?6.Maste转载 2014-11-12 08:34:17 · 596 阅读 · 0 评论 -
Hadoop-2.4.1学习之Mapper和Reducer
本文转载自http://www.linuxidc.com/Linux/2014-11/109286.htm转载 2014-11-12 21:58:19 · 895 阅读 · 0 评论 -
hadoop集群配置机架感知
自己搭建的hadoop集群一般默认不具备机架感知能力,为了提高hadoop集群的网络性能,我们常常需要配置机架感知。下面是以下步骤:一、修改配置文件core-site.xml,添加配置属性:转载 2014-11-12 08:51:01 · 949 阅读 · 0 评论 -
浅析 Hadoop 中的数据倾斜
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记转载 2014-11-13 22:49:39 · 426 阅读 · 0 评论 -
编译制作hadoop 2.4.1 Eclipse插件,在线调试运行MapReduce程序
环境简介:hadoop 2.4.1 运行在linux虚拟机当中(伪分布式,其实这个不影响)Eclipse 4.3.2 运行在windows 8.1中ant 1.9.4 运行在windows 8.1 中,环境变量已经配置好利用ant 编译出hadoop2.4.1的Eclipse插件:因hadoop2.4.1版本比较新,官方并没有提供该版本的Eclipse插转载 2014-11-09 18:02:48 · 885 阅读 · 0 评论 -
MapReduce的Reducer数量确定
Reducer的数量可以由程序员明确设置,那么设置多少Reducer可以达到较好地效果呢?Reducer的数量范围为:(0.95 ~1.75 ) * 节点数量 * 每个节点上最大的容器数。参数yarn.scheduler.minimum-allocation-mb设置了每个容器可请求的最小内存,那么最大容器数可根据总的内存除以该参数计算得出。当使用0.75时,所有的Reducer会被立即加载,并当转载 2014-11-13 20:02:38 · 1339 阅读 · 0 评论 -
hadoop2.x MapReduce过程
1、首先编写一个mapreduce程序原创 2014-11-12 17:08:55 · 3616 阅读 · 0 评论