Hadoop入门配置

Hadoop入门配置

 

主从机构

         主:jobtracker

    从:tasktracker

四个阶段:

1、  Split

2、  Mapper:key-value(对象)

3、  Shuffle

a)        分区(partition,HashPartition:根据key的hashcode值 和 Reduce的数量 模运算),可以自定义分区,运算速度要快。一定要解决数据倾斜和reduce的负载均衡。

b)       排序:默认按照字典排序。WriterCompartor(比较)

c)        合并:减少当前mapper输出数据,根据key相同(比较),把 value 进行合并。

d)       分组(key相同(比较),value组成一个集合)(merge)

4、  Reduce

a)        输入数据:key + 迭代器

 

 

Hadoop2.5 HA搭建

四台机器:hadoop1,hadoop2,hadoop3,hadoop4

 

 

NN

DN

ZK

ZKFC

JN

RM

NM(任务管理)

Hadoop1

Y

 

Y

Y

 

 

 

Hadoop2

Y

Y

Y

Y

Y

Y

Y

Hadoop3

 

Y

Y

 

Y

 

Y

Hadoop4

 

Y

 

 

Y

 

Y

 

 

1.      core-site.xml

<configuration>

<property>

  <name>fs.defaultFS</name>

  <value>hdfs://bjsxt</value>

</property>

<property>

   <name>ha.zookeeper.quorum</name>

   <value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>

</property>

<property>

  <name>hadoop.tmp.dir</name>

  <value>/opt/hadoop</value>

</property>

</configuration>

2.      hdfs-site.xml

<configuration>

<property>

  <name>dfs.nameservices</name>

  <value>bjsxt</value>

</property>

<property>

 <name>dfs.ha.namenodes.bjsxt</name>

  <value>nn1,nn2</value>

</property>

<property>

 <name>dfs.namenode.rpc-address.bjsxt.nn1</name>

  <value>hadoop1:8020</value>

</property>

<property>

  <name>dfs.namenode.rpc-address.bjsxt.nn2</name>

  <value>hadoop2:8020</value>

</property>

<property>

 <name>dfs.namenode.http-address.bjsxt.nn1</name>

  <value>hadoop1:50070</value>

</property>

<property>

 <name>dfs.namenode.http-address.bjsxt.nn2</name>

  <value>hadoop2:50070</value>

</property>

<property>

 <name>dfs.namenode.shared.edits.dir</name>

 <value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/bjsxt</value

</property>

<property>

 <name>dfs.client.failover.proxy.provider.bjsxt</name>

  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<property>

 <name>dfs.ha.fencing.methods</name>

  <value>sshfence</value>

</property>

<property>

 <name>dfs.ha.fencing.ssh.private-key-files</name>

  <value>/root/.ssh/id_dsa</value>

</property>

<property>

 <name>dfs.journalnode.edits.dir</name>

  <value>/opt/hadoop/data</value>

</property>

<property>

  <name>dfs.ha.automatic-failover.enabled</name>

   <value>true</value>

</property>

</configuration>

3.      准备zookeeper

    a) 三台zookeeper:hadoop1,hadoop2,hadoop3
    b) 编辑zoo.cfg配置文件
        i. 修改dataDir=/opt/zookeeper
        ii. server.1=hadoop1:2888:3888
                server.2=hadoop2:2888:3888
                server.3=hadoop3:2888:3888
    c) 在dataDir目录中创建一个myid的文件,文件内容为1,2,3

4. 配置hadoop中的slaves
5. 启动三个zookeeper:./zkServer.sh start
6. 启动三个JournalNode:./hadoop-daemon.sh start journalnode
7. 在其中一个namenode上格式化:hdfs namenode -format
8. 把刚刚格式化之后的元数据拷贝到另外一个namenode上
a) 启动刚刚格式化的namenode :hadoop-daemone.sh start namenode
b) 在没有格式化的namenode上执行:hdfs namenode -bootstrapStandby
c) 启动第二个namenode
9. 在其中一个namenode上初始化zkfc:hdfs zkfc -formatZK
10. 停止上面节点:stop-dfs.sh
11. 全面启动:start-dfs.sh


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值