Hadoop
收集:flume kafka
存储:HDFS
计算:MapReduce
分布式集群存储(HDFS):
配置jdk环境变量: vim/etc/proflile
JAVA_HOME=/usr/jdk1.8.0
PATH=$JAVA_HOME/bin:$PATH($:连接到之前的PATH)
export JAVA_HOME PATH
刷新配置文件: source/etc/profile
修改主机名称: hostnamectl set-hostname huaxia0*
配置主机和IP地址映射: vim/etc/hosts
192.168.142.132 huaxia01
192.168.142.133 huaxia02
192.168.142.131 hauxia03
分发hosts文件到另外两个节点: scp hosts root@huaxia02:/etc/(跨平台发文件)
cp -r test1 /拷贝
查看Linux文件是否安装java: rpm -qa|grep java
集群就是由多台机器组成的额整体,共同对外服务
主从结构:一主多从,多主多从
生成秘钥:ssh-keygen并在各个节点运行
将公钥分配到其他节点: sh-copy-id huaxia02
主节点 从节点1 从节点2
huaxia01 huaxia02 huaxia03
namenode datanode datanode
框架的版本选择遵从一个原则:不要使用最新版本(选择一个不新不旧的版本)
tar -zxvf 解压
vim hadoop-env.sh转export JAVA_HOME=/usr/jdk1.8.0后退出
vim /etc/profile转 HADOOP_HOME=/usr/hadoop-2.7.5
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_HOME PATH后退出
source /etc/profile
检测hadoop
配置错误的补救 /usr/bin/vi /etc/profile
分发安装包到各个节点 scp -r hadoop-2.7.5 root@huaxia02:/usr/
分发配置文件到各个节点 scp /etc/profile root@huaxia02:/etc/
在HDFS主节点上执行命令进行初始化 namenodehadoop namenode -format
在HDFS主节点上启动 HDFS start-dfs.sh
关闭防火墙hadoop fs
上传 hadoop fs -put /usr/hadoop-2.7.5.tar.gz /
网页查看+50070
IPADDR IP地址
NETMASK 子网掩码
GATEWAY 网关
【附一】:分布式集群的安装
一、上传安装包,并解压到相关目录 tar -zxvf hadoop-2.7.5.tar.gz -C /home/
二、主要配置文件的配置 1.修改hadoop-env.sh export JAVA_HOME=/usr/jdk1.8 2.修改core-site.xml <configuration> <!-- 指定HDFS老大(namenode)的通信地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop01:9000</value> </property> <!-- 指定hadoop运行时产生文件的存储路径 --> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-2.7.5/temp</value> </property> </configuration>
3.修改hdfs-site.xml <configuration> <!-- 设置namenode的http通讯地址 --> <property> <name>dfs.namenode.http-address</name> <value>hadoop01:50070</value> </property> <!-- 设置secondarynamenode的http通讯地址 --> <property> <name>dfs.namenode.secondary.http-address</name> <value>hadoop02:50090</value> </property> <!-- 设置namenode存放的路径 --> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop-2.7.5/hdfs/name</value> </property> <!-- 设置hdfs副本数量 --> <property> <name>dfs.replication</name> <value>2</value> </property> <!-- 设置datanode存放的路径 --> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop-2.7.5/hdfs/data</value> </property> <!-- 设置取消访问控制检查 --> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>
4.修改mapred-site.xml(集群中只有mapred-site.xml.template,可以从这个文件进行复制,或者直接改名也可以) <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 5.修改yarn-site.xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop03</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> 6.修改slaves文件,添加以下内容,该内容是从节点列表 hadoop01 hadoop02 hadoop03
三、分发安装包到各个节点,Hadoop的每个节点都需要hadoop安装包 scp -r hadoop-2.7.5 root@hadoop02:$PWD scp -r hadoop-2.7.5 root@hadoop03:$PWD
四、在HDFS主节点上执行命令进行初始化namenode hadoop namenode -format
五、在HDFS主节点上启动HDFS,其实在哪个节点启动并无关系 start-dfs.sh 结果:在主节点启动了NameNode守护进程 在从节点启动了DataNode守护进程 在配置的一个特定节点上会启动SecondaryNameNode进程 六、检测集群是否启动成功 1、检测hdfs是否启动成功 hadoop fs -ls / 2、Hdfs集群信息web管理界面地址 http://hadoop01:50070
|