Hadoop初学者指南-如何安装

目录

介绍

Hadoop的先决条件

安装VMWare Player和Ubuntu操作系统

安装Java 8 JDK

设置JAVA_HOME变量

安装SSH

下载Hadoop

安装Hadoop

配置Hadoop

结论


介绍

在我之前的文章中,我试图对大数据和Hadoop进行概述。在本文中,我将向您展示如何在Ubuntu操作系统上安装Hadoop(单节点集群)。Windows用户也可以按照本文在虚拟机中安装Ubuntu 获得Hadoop的味道。:)

Hadoop的先决条件

  • JDKJava开发工具包(JDK)是用于开发Java应用程序和小程序的软件开发环境。它包括Java运行时环境(JRE)、解释器/加载器(java)、编译器(javac)、归档器(jar)、文档生成器(javadoc)Java开发所需的其他工具。由于Hadoop框架是用Java编写的,因此需要JDK
  • SSHSSH“Secure SHell”)是一种用于从另一台计算机安全访问计算机的协议。尽管名称如此,SSH允许您运行命令行和图形程序、传输文件,甚至通过Internet创建安全的虚拟专用网络。

安装VMWare PlayerUbuntu操作系统

此步骤仅适用于windows用户。如果您已经安装了Ubuntu系统,请跳过此步骤。从步骤安装Java 8 JDK开始。

  • 单击创建新的虚拟机,打开以下屏幕:

  • 选择选项我将稍后安装操作系统,然后单击下一步按钮,打开以下屏幕:

  • 选择选项Linux并从版本下拉列表中选择Ubuntu 64-bit,然后单击Next按钮进入下一个屏幕:

  • 输入虚拟机名称,设置好位置,点击下一步按钮进入下一个界面:

  • 如果您有足够的磁盘空间,请将最大磁盘大小设置为40 GB,选择选项将虚拟磁盘存储为单个文件,然后单击下一步按钮导航到下一个屏幕:

  • 如果您的RAM超过4GB,请 单击自定义硬件:

  • 选择2GB RAM并点击关闭按钮。然后点击完成按钮。

  • 点击编辑虚拟机设置

  • 单击CD/DVD (SATA)硬件,选择使用ISO映像文件选项并浏览Ubuntu ISO文件。单击确定关闭此窗口
  • 点击播放虚拟机。这将开始安装Ubuntu操作系统。按照一步一步的过程完成安装

安装Java 8 JDK

  • 登录到Ubuntu机器
  • Ctrl+Alt+T打开终端
  • 使用以下命令以su(超级用户)身份登录。安装Ubuntu时使用相同的密码:
sudo su
  • 键入cd(更改目录)并按Enter移动到根目录:
cd

  • 键入以下命令并按Enter
apt-get install openjdk-8-jdk 

  • 这将要求确认。键入Y并按Enter

  • 这需要一些时间才能完成。执行clear命令清屏:
clear
  • 执行以下命令查看JDK是否安装成功:
java -version
javac -version

设置JAVA_HOME变量

  • 运行以下命令以获取JDK路径:
update-alternatives --config java


所以JDK安装在/usr/lib/jvm/java-8-openjdk-amd64路径下:

  • 通过键入以下命令来编辑环境变量:
gedit /etc/environmen
  • 这将打开一个编辑器。将以下行添加到编辑器的末尾:
JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"

  • 单击保存并关闭窗口。
  • 运行此命令以检查编辑的文件是否没有错误。
source /etc/environmen
  • 运行此命令以检查JAVA_HOME变量是否已正确添加:
echo $JAVA_HOME

安装SSH

  • 运行以下命令:
apt-get install ssh
  • 这将要求确认。键入Y并按Enter

  • 完成后,通过执行以下命令生成公钥/私钥rsa密钥对:
ssh-keygen -t rsa -P ""
  • 这将询问输入保存密钥的文件(/root/.ssh/id_rsa):。不输入任何内容,然后按Enter

  • 通过运行以下命令使生成的公钥授权:
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

  • 通过执行以下命令检查ssh是否已安装并正常运行:
ssh localhost
  • 这将询问您确定要继续连接(是/否)吗?。键入yes并按Enter

  • 如果显示错误,请再次执行相同的命令:
ssh localhost

  • 如果ssh已安装并正常运行,它应该显示上述消息。

下载Hadoop

从此链接下载 Hadoop版本2.7.3  

点击2.7.3版本二进制:

  • 单击标记为红色的链接下载文件。这将打开一个窗口。选择保存文件选项,然后单击保存按钮。

  • 这将开始下载文件:

  • 该文件将保存在浏览器中设置的默认下载位置。

安装Hadoop

  • 关闭终端并再次打开它。无需以su登录。
  • 找到hadoop安装文件的下载路径,运行如下命令解压。
tar -xvzf ‘<downloaded package path>’
  • 就我而言,它是:
tar -xvzf ‘/home/fazlur/Downloads/hadoop-2.7.3.tar.gz’
  • 这会在主目录下创建一个目录hadoop-2.7.3” 

配置Hadoop

  • 在终端中,使用以下命令以root身份登录。安装Ubuntu时使用相同的密码:
sudo su
  • 运行此命令以编辑.bashrc文件:
gedit ~/.bashrc
  • 这将打开一个编辑器。将以下行添加到此编辑器的末尾。用适当的路径替换<JAVA_PATH><HADOOP_HOME_PATH>
#HADOOP VARIABLES START
<meta charset="utf-8" />export JAVA_HOME=<JAVA PATH>
<meta charset="utf-8" />export PATH=${JAVA_HOME}/bin:${PATH}
<meta charset="utf-8" />export HADOOP_INSTALL=<HADOOP HOME PATH>
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END

  • 就我而言,它看起来像这样:

  • 保存并关闭编辑器。
  • 运行以下命令检查.bashrc文件 是否有错误:
source ~/.bashrc

  • 通过运行以下命令进入路径hadoop-2.7.3/etc/hadoop”
cd <HADOOP PATH>

就我而言,它是:

cd /home/fazlur/hadoop-2.7.3/etc/hadoop

  • 使用以下命令编辑hadoop-env.sh”文件:
gedit hadoop-env.sh
  • 这将打开一个编辑器。将此行附加到编辑器的末尾。保存并关闭编辑器。
export JAVA_HOME=<Your Java Path>

就我而言,它看起来像这样:


export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

  • 运行以下命令检查hadoop-env.sh文件是否有错误:
source hadoop-env.sh
  • hadoop-2.7.3 存在的同一目录中创建一个名为hadoop_store的目录。并进入目录。运行以下命令来做到这一点:
cd <HOME PATH>
	mkdir hadoop_store
	cd hadoop_store

  • 就我而言,它是:
cd /home/fazlur
  • 创建一个名为hdfs的目录并进入它。运行这些命令来做到这一点:
mkdir hdfs
cd hdfs

  • hdfs目录中创建两个名为namenodedatanode的目录。运行这些命令来做到这一点。屏幕截图显示了连续的命令和目录结构:
mkdir namenode
mkdir datanode

  • 通过运行以下命令进入路径hadoop-2.7.3/etc/hadoop”
cd <HADOOP PATH>

就我而言,它是:

cd /home/fazlur/hadoop-2.7.3/etc/hadoop
  • 通过运行以下命令编辑hdfs-site.xml ”这将打开一个编辑器:
gedit hdfs-site.xml
  • <configuration></configuration>标签之间附加以下行。用适当的路径替换<NAMENODE_FOLDER_PATH><DATANODE_FOLDER_PATH>

<property>
 <name>dfs.replication</name>
 <value>1</value>
 <description>Default block replication.
 The actual number of replications can be specified when the file is created.
 The default is used if replication is not specified in create time.
 </description>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
 <value>file:<NAMENODE_FOLDER_PATH></value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:<DATANODE_FOLDER_PATH></value>
</property>

  • 在我的情况下看起来像这样:

  • 保存并关闭编辑器。
  • 进入hadoop-2.7.3文件夹并创建一个名为tmp的目录。以下命令执行此操作:
cd <hadoop-2.7.3 path>
mkdir tmp

就我而言:

cd /home/fazlur/hadoop-2.7.3
mkdir tmp
  • 使用以下命令编辑core-site.xml”文件:
gedit core-site.xml
  • 这将打开一个编辑器。在<configuration></configuration>标签之间附加以下行。替换<TMP_FOLDER_PATH>为适当的路径。

<property>
 <name>hadoop.tmp.dir</name>
 <value>/home/fazlur/hadoop-2.7.3/tmp</value>
 <description>A base for other temporary directories.</description>
</property>

<property>
 <name>fs.default.name</name>
 <value>hdfs://localhost:54310</value>
 <description>The name of the default file system.  A URI whose
 scheme and authority determine the FileSystem implementation.  The
 uri's scheme determines the config property (fs.SCHEME.impl) naming
 the FileSystem implementation class.  The uri's authority is used to
 determine the host, port, etc. for a filesystem.</description>
</property>

  • 这是我的样子:

  • 保存并关闭编辑器。
  • 运行以下命令以使用mapred-site.xml.template模板创建mapred-site.xml文件:
cp mapred-site.xml.template mapred-site.xml
  • 使用以下命令编辑mapred-site.xml”
gedit mapred-site.xml
  • 这将打开一个编辑器。在<configuration></configuration>标签之间附加以下行。替换<TMP_FOLDER_PATH>为适当的路径。

<property>
 <name>mapred.job.tracker</name>
 <value>localhost:54311</value>
 <description>The host and port that the MapReduce job tracker runs
 at.  If "local", then jobs are run in-process as a single map
 and reduce task.
 </description>
</property>

  • 这是我的样子:

  • 保存并关闭编辑器。
  • 执行命令cd进入目录。
  • 通过运行以下命令格式化Hadoop文件系统:
hadoop namenode -format
  • 重新启动您的机器。
  • 打开终端并以su登录。
  • 运行以下命令启动hadoop
start-all.sh
  • 运行此命令以检查是否所有服务都已启动:
jps

  • 看起来NameNode服务没有运行。请按照以下步骤使其正常工作:
    • 重新启动您的机器。
    • 打开终端并以su登录。
    • 输入cd移动到目录。
    • 执行命令hadoop namenode -format格式化hadoop文件系统。
    • 执行命令start-all.sh启动所有服务。
    • 执行命令jps检查是否所有服务都已启动。

  • 现在打开您喜欢的浏览器并输入以下网址:
http://localhost:8088
  • 如果一切都启动并运行,它会打开一个这样的页面:

  • 键入以下url以检查数据节点以及浏览hadoop文件系统:
http://localhost:50070
  • 这会打开一个这样的页面:

  • 导航到Utilities-->Browse the file system以检查hadoop文件系统:

结论

希望您喜欢阅读并在您的ubuntu系统中成功安装hadoop。在我接下来的连续文章中,我将详细解释Hadoop的不同组件。

https://www.codeproject.com/Articles/1167462/Hadoop-Beginners-Guide-How-to-Install

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值