hadoop伪分布搭建流程
----------------------------
1.通过挂在上传软件至/home/hyxy/soft
$>cp jdk1.8.XXX.tar.gz ~/soft
$>cp hadoop.2.7.3.tar.gz ~/soft
2.解压相关软件
$>tar -zxvf jdk1.8.XXX.tar.gz
$>tar -zxvf hadoop.2.7.3.tar.gz
3.创建软连接
$>ln -s jdk1.8.0_121/ jdk
$>ln -s hadoop-2.7.3/ hadoop
4.修改环境变量
$>cd ~
$>gedit .bash_profile
在文件最后追加以下指令:
#jdk install
export JAVA_HOME=/home/hyxy/soft/jdk
export PATH=$JAVA_HOME/bin:$PATH
#hadoop install
export HADOOP_HOME=/home/hyxy/soft/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
$>source .bash_profile
注意:刷新完之后,当前回话可用;建议reboot(重启)
5.配置SSH
a.修改hostname
$>su root
$>gedit /etc/sysconfig/network
【HOSTNAME=master】
b.修改hosts文件
$>gedit /etc/hosts
【在文件后追加:ip 主机名:192.168.142.138 master】
c.reboot;
d.生成秘钥
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
【说明:-t设置生成秘钥的算法,采用的rsa;-P设置密码,默认为空;-f设置秘钥生成的文件位置,~/.ssh】
e.生成认证库
$>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
f.修改认证库的权限为600
$>chmod 600 ~/.ssh/authorized_keys
g.ssh master
//无密登录成功!!!!
6.配置hadoop
a.找到hadoop的配置路径:cd $HADOOP_HOME/etc/hadoop
b.修改core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
c.修改hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
d.修改hadoop-env.sh中的JAVA_HOME变量
【export JAVA_HOME=/home/hyxy/soft/jdk】
e.格式化HDFS
$>hdfs namenode -format
f.开启hadoop守护进程
$>start-dfs.sh //开启HDFS
查找当前hadoop2.7.3的默认配置文件
-------------------------------------------
1.core-default.xml:【hadoop-common-2.7.3.jar】
2.hdfs-default.xml:【hadoop-hdfs-2.7.3.jar】
3.mapred-default.xml:【hadoop-mapreduce-client-core-2.7.3.jar】
4.yarn-default.xml:【hadoop-yarn-common-2.7.3.jar】
分别启动守护进程:(启动顺序不重要)
-----------------------------
1.启动namenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo start namenode
2.启动datanode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo start datanode
3.启动secondarynamenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo start secondarynamenode
分别停止守护进程
-----------------------------
1.启动namenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo stop namenode
2.启动datanode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo stop datanode
3.启动secondarynamenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo stop secondarynamenode
hadoop的瓶颈为物理存储(硬盘容量)!!!而绝非网络、内核CPU、内存(运行内存)
hadoop默认查找{HADOOP_HOME}/etc/hadoop
hadoop start-dfs.sh 的执行流程
-------------------------------------
【start-dfs.sh】-->【hdfs-config.sh】(说明:加载各种配置信息)
-->【hadoop-daemons.sh】(说明:执行slaves和daemon)
-->【hadoop-daemon.sh】(说明:根据command调用HDFS。执行相关操作)
-->【hdfs】(说明:执行相关操作,加载CLASS文件)
-->【调用Java底层源代码】(说明:执行相关Class文件的Main函数)
----------------------------
1.通过挂在上传软件至/home/hyxy/soft
$>cp jdk1.8.XXX.tar.gz ~/soft
$>cp hadoop.2.7.3.tar.gz ~/soft
2.解压相关软件
$>tar -zxvf jdk1.8.XXX.tar.gz
$>tar -zxvf hadoop.2.7.3.tar.gz
3.创建软连接
$>ln -s jdk1.8.0_121/ jdk
$>ln -s hadoop-2.7.3/ hadoop
4.修改环境变量
$>cd ~
$>gedit .bash_profile
在文件最后追加以下指令:
#jdk install
export JAVA_HOME=/home/hyxy/soft/jdk
export PATH=$JAVA_HOME/bin:$PATH
#hadoop install
export HADOOP_HOME=/home/hyxy/soft/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
$>source .bash_profile
注意:刷新完之后,当前回话可用;建议reboot(重启)
5.配置SSH
a.修改hostname
$>su root
$>gedit /etc/sysconfig/network
【HOSTNAME=master】
b.修改hosts文件
$>gedit /etc/hosts
【在文件后追加:ip 主机名:192.168.142.138 master】
c.reboot;
d.生成秘钥
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
【说明:-t设置生成秘钥的算法,采用的rsa;-P设置密码,默认为空;-f设置秘钥生成的文件位置,~/.ssh】
e.生成认证库
$>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
f.修改认证库的权限为600
$>chmod 600 ~/.ssh/authorized_keys
g.ssh master
//无密登录成功!!!!
6.配置hadoop
a.找到hadoop的配置路径:cd $HADOOP_HOME/etc/hadoop
b.修改core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
c.修改hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
d.修改hadoop-env.sh中的JAVA_HOME变量
【export JAVA_HOME=/home/hyxy/soft/jdk】
e.格式化HDFS
$>hdfs namenode -format
f.开启hadoop守护进程
$>start-dfs.sh //开启HDFS
查找当前hadoop2.7.3的默认配置文件
-------------------------------------------
1.core-default.xml:【hadoop-common-2.7.3.jar】
2.hdfs-default.xml:【hadoop-hdfs-2.7.3.jar】
3.mapred-default.xml:【hadoop-mapreduce-client-core-2.7.3.jar】
4.yarn-default.xml:【hadoop-yarn-common-2.7.3.jar】
分别启动守护进程:(启动顺序不重要)
-----------------------------
1.启动namenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo start namenode
2.启动datanode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo start datanode
3.启动secondarynamenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo start secondarynamenode
分别停止守护进程
-----------------------------
1.启动namenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo stop namenode
2.启动datanode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo stop datanode
3.启动secondarynamenode进程:
$>hadoop-daemons.sh --config ~/soft/hadoop/etc/hadoop_pseudo stop secondarynamenode
hadoop的瓶颈为物理存储(硬盘容量)!!!而绝非网络、内核CPU、内存(运行内存)
hadoop默认查找{HADOOP_HOME}/etc/hadoop
hadoop start-dfs.sh 的执行流程
-------------------------------------
【start-dfs.sh】-->【hdfs-config.sh】(说明:加载各种配置信息)
-->【hadoop-daemons.sh】(说明:执行slaves和daemon)
-->【hadoop-daemon.sh】(说明:根据command调用HDFS。执行相关操作)
-->【hdfs】(说明:执行相关操作,加载CLASS文件)
-->【调用Java底层源代码】(说明:执行相关Class文件的Main函数)