1.在VM中安装centos,并开启VM tools,关联共享文件夹
2.安装jdk
下载linux的jdk到共享文件夹,在centos根目录创建soft文件夹,并将jdk拷贝过去。
默认centos的共享文件夹目录在 /mnt/hgfs 文件夹下
tar -xvf jdk-xxx.tar.gz
解压jdk,并创建符号链接
ln -s /soft/jdk-xxx /soft/jdk
配置环境变量
编辑 /etc/profile
export JAVA_HOME=/soft/jdk
export PATH=$PATH:$JAVA_HOME/bin
使环境变量即刻生效
source /etc/profile
3.安装 hadoop
下载 hadoop放置到共享文件夹下,并在centos中复制到 /soft 文件夹中
tar -xvf hadoop-xxx.tar.gz
解压jdk,并创建符号链接
ln -s /soft/hadoop-xxx /soft/hadoop
配置环境变量
编辑 /etc/profile
export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使环境变量即刻生效
source /etc/profile
4.配置hadoop
4.1 standalone
默认就是standalone模式,此时的hdfs系统显示本机目录
4.2 pseudodistributed mode 伪分布模式
进入 ${HADDOP_HOME}/etc/hadoop 文件夹配置4个xml文件
<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<?xml version="1.0"?>
<!-- yarn-site.xml -->
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置ssh
生成ssh密钥对,将ssh公钥到authorised_keys中
cat /root/.ssh/id_rsa/id_rsa.pub >> authorized_keys
5.三种模式共存
创建local,pesudo,full三个文件夹,分别放置三种模式的配置文件,然后建立符号链接指向需要使用的模式的文件夹
ln -s full hadoop
6.启动hadoop
初始化hdfs
hadoop namenode -format
在centos下启动时start-all.sh时,会报找不到JAVA_HOME,此时需要手动地指定JAVA_HOME路径,在${HADOOP_HOME}/etc/hadoop/hadoop_env.sh中编辑
...
export JAVA_HOME=/soft/jdk
...
启动所有hadoop进程
start-all.sh
查看所有java进程 jps
3152 ResourceManager
3671 DataNode
4039 NodeManager
3804 SecondaryNameNode
3550 NameNode
4143 Jps
在hdfs文件系统中创建递归目录
hdfs dfs -mkdir -p /user/centos/hadoop
查看是否创建成功
hdfs dfs -ls -R /
通过webui查看hadoop文件系统
http://localhost:50070/
hadoop中的端口
50070 // namenode http port
50075 // datanode http port
50090 // 2 namenode http port
8020 // namenode rpc port
50010 // datanode rpc port
停止所有hadoop进程
stop-all.sh
7.hadoop四大模块
common
hdfs // namenode + datanode + 2namenode
mapred
yarn // resourcemanager + nodemanager
启动
start-dfs.sh // namenode + datanode + 2namenode
start-yarn.sh // resourcemanager + nodemanager
停止
stop-dfs.sh
stop-yarn.sh