Hadoop集群伪分布式搭建

最新推荐文章于 2024-07-25 21:22:12 发布

X_sin

最新推荐文章于 2024-07-25 21:22:12 发布

阅读量348

点赞数

分类专栏：云计算与大数据物联网安全文章标签： hadoop virtualbox ubuntu

云计算与大数据同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

物联网安全

2 篇文章 0 订阅

订阅专栏

一、环境准备
1、安装虚拟机VirtualBox-5.0.20-106931-Win
2、在机子上安装Linux操作系统 Ubuntu 12.04
在Windows中使用VirtualBox安装Ubuntu（步骤详见下文）
http://dblab.xmu.edu.cn/blog/337-2/#more-337
注意：
（因为Hadoop平台中的所有用户必须是一样的，所以如果使用Windows平台下的Eclipse连接Hadoop，这时Windows的用户名与Ubuntu的用户名要一样,或者要配置操作系统变量）
3、在Ubuntu上安装JDK和Hadoop
下载相关软件包，把所有软件包都下载到/opt目录下（进入/opt目录，然后在当前目录下下载）
（1）下载JDK

$ sudo wget --no-cookies --no-check-certificate --header "Cookie: gpw_e24=http%3A%2F%2F www.oracle.com%2F; oraclelicense=accept-securebackup-cookie" 
"http://download.oracle.com/otn-pub/java/jdk/7u55-b13/jdk-7u55-linux-i586.tar.gz"

（2）下载hadoop

$ sudo wget –c http://archive.apache.org/dist/hadoop/core/hadoop-1.2.1/hadoop-1.2.1.tar.gz

（3）解压安装文件
如：在/opt目录下解压：

# tar xvf jdk-7u55-linux-i586.tar.gz
# tar xvf hadoop-1.2.1.tar.gz

二、配置集群
1、修改主机名（Linux 相关配置文件放在文件夹/etc下）

$ sudo vi  /etc/hostname ubuntu

配置完后重启下计算机

# reboot

2、修改hosts文件（*）（添加删除数据节点时应配置）
首先用ifconfig命令查一下虚拟机的IP地址，然后修改hosts文件，如：

#vi  /etc/hosts
192.168.56.101  ubuntu

3、修改环境变量

# vi  /etc/profile
#添加以下内容：
export JAVA_HOME=/opt/jdk1.7.0_55
export HADOOP_HOME=/opt/hadoop-1.2.1
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH

重载环境变量（关键）

# source /etc/profile

三、配置Hadoop
1. 将路径切换到conf目录下

# cd /opt/hadoop-1.2.1/conf

修改hadoop-env.sh

# vi hadoop-env.sh

将注释的JAVA_HOME配置改为

export JAVA_HOME=/opt/jdk1.7.0_55

修改sudo vi core-site.xml

<configuration>
<property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.56.101:9000</value>
</property>
#/hadooptmp目录要手工新建,
#如果没有，系统会自动创建/tmp/hadoop-hadoop/
<property>
  <name>hadoop.tmp.dir</name>
  <value>/hadooptmp</value>
</property>
</configuration>

修改hdfs-site.xml

dfs.name.dir
/hadooptmp/dfs/name

dfs.data.dir
/hadooptmp/dfs/data

dfs.replication
1

dfs.permissions
false

5. 修改mapred-site.xml

<configuration>
<property>
  <name>mapred.job.tracker</name>
  <value>http://192.168.56.101:9001</value>
</property>
</configuration>

修改masters

# vi masters

添加以下内容：
ubuntu
7. 修改slaves

# vi slaves
#添加以下内容：
ubuntu

四、建立SSH互信
SSH互信是指在不提示输入用户名和密码的情况下通过SSH访问其他主机；在Hadoop中，master会经常访问其他主机运行程序，所以需要配置SSH互信。以下操作均在master上完成。
1) ubuntu默认并没有安装ssh服务，如果通过ssh链接ubuntu，需要自己手动安装ssh-server, 判断是否安装ssh服务，可以通过如下命令进行ssh ubuntu
如果出现：“ssh: connect to host localhost port 22: Connection refused”则说明SSH还没有安装，可用下列命令安装

#apt-get install ssh

2) 进入目录cd ~/.ssh/
3) 生成密钥，配置ssh无密码登录

ssh-keygen -t rsa –P ‘’

4) 加入授权

cat  ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

5) 验证配置

# ssh ubuntu

登录成功则配置成功。需要注意的是，由于是登录本机，无法从提示符的主机名中判断是否切换主机，需要通过当前路径等方式判断。
五、启动集群
1、格式化namenode（只能格式化一次*）

# hadoop namenode -format

2、启动hadoop

# start-all.sh

3、查看服务进程

# jps

4、 Namenode管理接口
http:// //192.168.56.101:50070/
列出了集群中的所有datanode以及集群的基本统计。同样可以用于浏览文件系统（点击Namenode首页上的“Browse the file system”链接）。

X_sin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop集群伪分布式搭建

一、环境准备 1、安装虚拟机VirtualBox-5.0.20-106931-Win 2、在机子上安装Linux操作系统 Ubuntu 12.04 在Windows中使用VirtualBox安装Ubuntu（步骤详见下文） http://dblab.xmu.edu.cn/blog/337-2/#more-337 注意：（因为Hadoop平台中的所有用户必须是一样的，所以如果使用W
复制链接

扫一扫

专栏目录