大数据
孤傲的小狼
你只需要努力,剩下的交给时间
展开
-
Hadoop集群的安装和配置
一、首先下载好jdk、hadoop包,放入linux并解压注意:1、大家尽量选择centos6版本,反正我用的是centos7,出现了很多问题,可能是7增加了一些安全机制,导致在免密登陆那块很容易出现授权列表有公钥也无法登陆问题2、用普通用户模式进行密钥的分发和集群的开启,如果用root用户模式,可能会出现意想不到的问题,比如:系统只认第一次进行密钥分发的模式(普通用户模式/root用...原创 2019-05-30 16:48:20 · 298 阅读 · 0 评论 -
HDFS 2.X HA高可用原理
先上图ha模式在hdfs1.x的时候,主要组件有namenode、secondnode、datanode,但是正如我们知道的,namenode的稳定性决定了整个系统的稳定性,这是存在的一大问题,所以在2.x版本中添加了如下如见之前的一个namenode成了两个,但是这两个namenode被赋予了一个状态,active/standby,意思很明显,一主一备,也就是说,在2.x版本中,...原创 2019-09-04 13:50:43 · 365 阅读 · 0 评论 -
MapReduce执行过程分析
MR大致可以分为四个过程:split、map、suffle、reduce,接下来讲解这四个过程具体做了什么split阶段:顾名思义,切割,将一个物理block切割成多个逻辑块,为什么要这么切呢?我们知道,默认一个block是128m,如果我需要处理的就是128m的数据,并且我有10台机器可以处理数据呢,是不是其余九台就没事干了?所以,可以对物理块进行逻辑分割,分为多个小块...原创 2019-09-04 20:24:01 · 369 阅读 · 0 评论