在ubuntu上安装伪分布式hadoop

最新推荐文章于 2022-09-14 00:45:50 发布

Narcissus`小暮

最新推荐文章于 2022-09-14 00:45:50 发布

阅读量258

点赞数 1

分类专栏：一步步来学大数据文章标签： hadoop linux

本文链接：https://blog.csdn.net/qq_44654498/article/details/105115106

版权

一步步来学大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

默认已经安装好了virtualbox和ubuntu，我使用的linux版本是ubuntu 16.04,还没有配置的同学可以去看一下我之前的博客

首先在ubuntu中打开终端

更新apt
sudo apt-get update
安装VIM，习惯VI可以不装
sudo apt-get install vim
需要用到SSH登录，ubuntu自动安装了SSH client,我们还需要安装SSH server
sudo apt-get install openssh-server
安装后可以使用ssh localhost 命令登陆主机
首次登陆会弹出提示，输入yes后输入密码即可
安装JAVA环境
可以选择下载好后贴入也可以选择在线下载安装，这里我使用手动安装方式.
把压缩格式的文件jdk-8u162-linux-x64.tar.gz下载到本地电脑，然后导入虚拟机中，记住保存的路径，我直接放到downloads目录下
创建usr/lib/jvm用来存放jdk文件
进入存放了安装包的文件路径，我放在下载文件夹里了，需要注意的是，查看他的属性来查找路径，linux里面用了中文的话这个文件夹就真的叫下载（吐了）
到该目录下后，利用解压缩命令对jdk进行解压
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm
解压缩完毕后开始设置环境变量

cd ~
vim~/.bashrc

这段命令会使用vim编辑器打开用户的环境变量配置文件，在文件的开头位置添加几行内容（按i开启编辑模式，编写完毕后按esc，输入**：wq**保存并退出）

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

执行命令让配置文件生效
source ~/.bashrc
此时可以用 java -version检查是否安装成功，如下图状态就是安装成功了
（当然也可以直接在网络上下载相关软件,可能会比较慢一些）

安装hadoop2

首先将下载好的压缩包放到下载文件夹中
我们将hadoop安装到/usr/local/中

sudo tar -zxf ~/下载/hadoop-2.7.1.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/		#进入到local文件夹中
sudo mv ./hadoop-2.6.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R catherine ./hadoop		#修改文件权限，这里注意用自己虚拟机的用户名

在这里插入图片描述

可以用version测试是否安装，如果安装成功应该和下图差不多
现在就完成了hadoop的单机配置，可以用hadoop自带的例子（wordcount,join,grep)测试一下

配置hadoop伪分布式
hadoop可以在单节点上以伪分布式的方式运行，以分离的JAVA进程来运行，节点可以做namenode也可以做datanode
按照之前的配置，配置文件在/usr/local/hadoop/etc/hadoop/中，配置伪分布式需要修改core-site.xml和hdfs-site.xml

修改core-site.xml
gedit ./etc/hadoop/core-site.xml
将其中的

<configuration>
</configuration>

修改为

<configuration>
    <property>        
         <name>hadoop.tmp.dir</name>        
         <value>file:/usr/local/hadoop/tmp</value> 
          <description>Abase for other temporary directories.</description> 
     </property>    
     <property>       
     	   <name>fs.defaultFS</name>          
     	   <value>hdfs://localhost:9000</value>    
    </property>
</configuration>

同样的修改配置文件hdfs-site.xml

<configuration>
    <property>
            <name>dfs.replication</name>       
             <value>1</value> 
     </property>
    <property> 
           <name>dfs.namenode.name.dir</name>     
           <value>file:/usr/local/hadoop/tmp/dfs/name</value>   
    </property>
    <property>
           <name>dfs.datanode.data.dir</name>
           <value>file:/usr/local/hadoop/tmp/dfs/data</value>         
    </property>           
</configuration>

配置完成后，执行namenode格式化
成功的话会看到“successfully formatted"和”existing with status 0",如果“existing with status 1"出错
接着开启namenode 和datanode守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh

启动完成后可以通过jps来判断是否启动成功，启动成功后会给出namenode\datanode\secondarynamenode；如果没有启动，请先 ./sbin/stop-dfs.sh 关闭进程然后再次尝试。
若要关闭hadoop,执行 ./sbin/stop-dfs.sh
下次启动hadoop时无需进行namenode初始化
只需要运行 ./sbin/start-dfs.sh 就可以