大数据3-Hadoop分布式介绍及集群搭建_大数据分布式集群搭建是什么意思-CSDN博客

1.分布式系统三大组件：

1.1 海量数据的存储

分布式文件系统（HDFS）

a.具有分布式的集群结构我们把这样实际存储数据的节点叫做datanode；

b.具有一个统一对外提供查询、存储、搜索的机器节点：

对外跟客户端统一打交道；

对内跟实际存储数据的节点打交道。

c.具有备份的机制，解决了机器挂掉时候数据丢失的问题；

d.具有统一的API对客户端来说不用操心集群内部的事情，只要调用API。就可以进行文件的读取、存储、搜索

甚至我们可以提供一个分布式文件系统的引用:

FileSystem fs = new FileSystem()

fs.add();fs.copy();fs.rm()...

1.2 解决分布式数据计算（处理）问题

分布式的编程模型（Mapreduce）

思想：分而治之：先局部，再总体

Map（映射） reduce（聚合）整体上作为一个编程模型：需要给用户提供一个友好，便捷的使用规范。

比如：你要继承什么、配置什么、如何调用、如何执行...

a.继承我们的一个mapper，实现自己的业务逻辑；

b.继承我们的一个reduce，实现自己的业务逻辑；

c.最好可以提供可供用户进行相关配置的类，或者配置文件

作为一个分布式计算框架，最好我们还提供一个程序的总管（MrAppmater）用来管理这种分布式计算框架的内部问题：

包括启动、衔接等。

1.3解决了分布式系统的资源管理问题

分布式资源管理（yarn）

为了更好的管理我们集群的资源，最好设计成分布式的架构

a.需要一个统一对外提供服务的节点（某一机器或者机器上的一个进程，一个服务）叫做资源管理者（ResourceManager）

b.需要在集群中的每台机器上有一个角色，用来进行每台机器资源的管理、汇报，叫做节点管理者（nodeManager）

2.集群搭建（三个节点：shizhan01,shizhan02,shizhan03）

2.1准备工作：

a.修改主机名：(三台)
vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=shizhan01

b.修改主机名和IP的映射关系:(三台)
vim /etc/hosts
192.168.48.129 shizhan01
192.168.48.130 shizhan02
192.168.48.131 shizhan03

c.关闭防火墙
#查看防火墙状态
service iptables status
#关闭防火墙
service iptables stop
#查看防火墙开机启动状态
chkconfig iptables --list
#关闭防火墙开机启动
chkconfig iptables off
d.安装JDK
上传alt+p 后出现sftp窗口，然后put d:\xxx\yy\ll\jdk-7u_65-i585.tar.gz
解压jdk
#创建文件夹
mkdir /home/hadoop/app
#解压
tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app
将java添加到环境变量中
vim /etc/profile
#在文件最后添加
export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585
export PATH=$PATH:$JAVA_HOME/bin
#刷新配置
source /etc/profile

2.2安装Hadoop集群：配置时候最好用要安装的Linux版本编译一下hadoop-2.5.2-src

先上传hadoop的安装包到服务器上去/home/hadoop/
注意：hadoop2.x的配置文件$HADOOP_HOME/etc/hadoop
需要修改5个配置文件
   2.2.1配置hadoop
   第一个：hadoop-env.sh 位置：/root/apps/hadoop/etc/hadoop
       vim hadoop-env.sh
       #第27行
       export JAVA_HOME=/usr/java/jdk1.7.0_65

   第二个：core-site.xml

<property>
           <name>fs.defaultFS</name>
           <value>hdfs://weekend-1206-01:9000</value>
       </property>
       
       <property>
           <name>hadoop.tmp.dir</name>
           <value>/home/hadoop/hadoop-2.4.1/tmp</value>
</property>

   第三个：hdfs-site.xml
       
       <property>
           <name>dfs.replication</name>
           <value>1</value>
</property>

<property>
            <name>dfs.secondary.http.address</name>
       <value>192.168.1.152:50090</value>
</property>

第四个：mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)
       mv mapred-site.xml.template mapred-site.xml
       vim mapred-site.xml
       
       <property>
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
</property>

   第五个：yarn-site.xml
       
       <property>
           <name>yarn.resourcemanager.hostname</name>
           <value>weekend-1206-01</value>
</property>
       
<property>
           <name>yarn.nodemanager.aux-services</name>
           <value>mapreduce_shuffle</value>
</property>

  2.2.2将hadoop添加到环境变量

   vim /etc/proflie
       export JAVA_HOME=/usr/java/jdk1.7.0_65
       export HADOOP_HOME=/itcast/hadoop-2.4.1
       export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin