目录
介绍
在我之前的文章中,我试图对大数据和Hadoop进行概述。在本文中,我将向您展示如何在Ubuntu操作系统上安装Hadoop(单节点集群)。Windows用户也可以按照本文在虚拟机中安装Ubuntu 获得Hadoop的味道。:)
Hadoop的先决条件
- JDK:Java开发工具包(JDK)是用于开发Java应用程序和小程序的软件开发环境。它包括Java运行时环境(JRE)、解释器/加载器(java)、编译器(javac)、归档器(jar)、文档生成器(javadoc)和Java开发所需的其他工具。由于Hadoop框架是用Java编写的,因此需要JDK。
- SSH:SSH(“Secure SHell”)是一种用于从另一台计算机安全访问计算机的协议。尽管名称如此,SSH允许您运行命令行和图形程序、传输文件,甚至通过Internet创建安全的虚拟专用网络。
安装VMWare Player和Ubuntu操作系统
此步骤仅适用于windows用户。如果您已经安装了Ubuntu系统,请跳过此步骤。从步骤“安装Java 8 JDK”开始。

- 单击“创建新的虚拟机”,打开以下屏幕:

- 选择选项“我将稍后安装操作系统”,然后单击“下一步”按钮,打开以下屏幕:

- 选择选项“Linux”并从版本下拉列表中选择“Ubuntu 64-bit”,然后单击“Next”按钮进入下一个屏幕:

- 输入虚拟机名称,设置好位置,点击“下一步”按钮进入下一个界面:

- 如果您有足够的磁盘空间,请将最大磁盘大小设置为40 GB,选择选项“将虚拟磁盘存储为单个文件”,然后单击“下一步”按钮导航到下一个屏幕:

- 如果您的RAM超过4GB,请 单击自定义硬件:

- 选择2GB RAM并点击“关闭”按钮。然后点击“完成”按钮。

- 点击“编辑虚拟机设置”:

- 单击“CD/DVD (SATA)”硬件,选择“使用ISO映像文件”选项并浏览Ubuntu ISO文件。单击“确定”关闭此窗口
- 点击“播放虚拟机”。这将开始安装Ubuntu操作系统。按照一步一步的过程完成安装
安装Java 8 JDK
- 登录到Ubuntu机器
- 按Ctrl+Alt+T打开终端
- 使用以下命令以“su”(超级用户)身份登录。安装Ubuntu时使用相同的密码:
sudo su
- 键入“cd”(更改目录)并按Enter移动到根目录:
cd

- 键入以下命令并按Enter:
apt-get install openjdk-8-jdk

- 这将要求确认。键入Y并按Enter:

- 这需要一些时间才能完成。执行“clear”命令清屏:
clear
- 执行以下命令查看JDK是否安装成功:
java -version
javac -version

设置JAVA_HOME变量
- 运行以下命令以获取JDK路径:
update-alternatives --config java
所以JDK安装在“/usr/lib/jvm/java-8-openjdk-amd64”路径下:
- 通过键入以下命令来编辑环境变量:
gedit /etc/environmen
- 这将打开一个编辑器。将以下行添加到编辑器的末尾:
JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64"

- 单击“保存”并关闭窗口。
- 运行此命令以检查编辑的文件是否没有错误。
source /etc/environmen
- 运行此命令以检查JAVA_HOME变量是否已正确添加:
echo $JAVA_HOME

安装SSH
- 运行以下命令:
apt-get install ssh
- 这将要求确认。键入Y并按Enter。

- 完成后,通过执行以下命令生成公钥/私钥rsa密钥对:
ssh-keygen -t rsa -P ""
- 这将询问“输入保存密钥的文件(/root/.ssh/id_rsa):”。不输入任何内容,然后按Enter。

- 通过运行以下命令使生成的公钥授权:
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

- 通过执行以下命令检查ssh是否已安装并正常运行:
ssh localhost
- 这将询问“您确定要继续连接(是/否)吗?”。键入yes并按Enter。

- 如果显示错误,请再次执行相同的命令:
ssh localhost

- 如果ssh已安装并正常运行,它应该显示上述消息。
下载Hadoop
从此链接下载 Hadoop版本2.7.3 。
点击2.7.3版本二进制:

- 单击标记为红色的链接下载文件。这将打开一个窗口。选择“保存文件”选项,然后单击“保存”按钮。

- 这将开始下载文件:

- 该文件将保存在浏览器中设置的默认下载位置。
安装Hadoop
- 关闭终端并再次打开它。无需以“su”登录。
- 找到hadoop安装文件的下载路径,运行如下命令解压。
tar -xvzf ‘<downloaded package path>’
- 就我而言,它是:
tar -xvzf ‘/home/fazlur/Downloads/hadoop-2.7.3.tar.gz’
- 这会在主目录下创建一个目录“hadoop-2.7.3” :

配置Hadoop
- 在终端中,使用以下命令以root身份登录。安装Ubuntu时使用相同的密码:
sudo su
- 运行此命令以编辑“.bashrc”文件:
gedit ~/.bashrc
- 这将打开一个编辑器。将以下行添加到此编辑器的末尾。用适当的路径替换<JAVA_PATH>和<HADOOP_HOME_PATH>:
#HADOOP VARIABLES START
<meta charset="utf-8" />export JAVA_HOME=<JAVA PATH>
<meta charset="utf-8" />export PATH=${JAVA_HOME}/bin:${PATH}
<meta charset="utf-8" />export HADOOP_INSTALL=<HADOOP HOME PATH>
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END
- 就我而言,它看起来像这样:

- 保存并关闭编辑器。
- 运行以下命令检查.bashrc文件 是否有错误:
source ~/.bashrc

- 通过运行以下命令进入路径“hadoop-2.7.3/etc/hadoop”:
cd <HADOOP PATH>
就我而言,它是:
cd /home/fazlur/hadoop-2.7.3/etc/hadoop

- 使用以下命令编辑“hadoop-env.sh”文件:
gedit hadoop-env.sh
- 这将打开一个编辑器。将此行附加到编辑器的末尾。保存并关闭编辑器。
export JAVA_HOME=<Your Java Path>
就我而言,它看起来像这样:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

- 运行以下命令检查hadoop-env.sh文件是否有错误:
source hadoop-env.sh
- 在hadoop-2.7.3 存在的同一目录中创建一个名为“hadoop_store”的目录。并进入目录。运行以下命令来做到这一点:
cd <HOME PATH>
mkdir hadoop_store
cd hadoop_store
- 就我而言,它是:
cd /home/fazlur
- 创建一个名为“hdfs”的目录并进入它。运行这些命令来做到这一点:
mkdir hdfs
cd hdfs
- 在“hdfs”目录中创建两个名为“namenode”和“datanode”的目录。运行这些命令来做到这一点。屏幕截图显示了连续的命令和目录结构:
mkdir namenode
mkdir datanode
- 通过运行以下命令进入路径“hadoop-2.7.3/etc/hadoop”:
cd <HADOOP PATH>
就我而言,它是:
cd /home/fazlur/hadoop-2.7.3/etc/hadoop
- 通过运行以下命令编辑“hdfs-site.xml ”。这将打开一个编辑器:
gedit hdfs-site.xml
- 在<configuration></configuration>标签之间附加以下行。用适当的路径替换<NAMENODE_FOLDER_PATH>和<DATANODE_FOLDER_PATH>。
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
</description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:<NAMENODE_FOLDER_PATH></value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:<DATANODE_FOLDER_PATH></value>
</property>
- 在我的情况下看起来像这样:

- 保存并关闭编辑器。
- 进入“hadoop-2.7.3”文件夹并创建一个名为“tmp”的目录。以下命令执行此操作:
cd <hadoop-2.7.3 path>
mkdir tmp
就我而言:
cd /home/fazlur/hadoop-2.7.3
mkdir tmp
- 使用以下命令编辑“core-site.xml”文件:
gedit core-site.xml
- 这将打开一个编辑器。在<configuration></configuration>标签之间附加以下行。替换<TMP_FOLDER_PATH>为适当的路径。
<property>
<name>hadoop.tmp.dir</name>
<value>/home/fazlur/hadoop-2.7.3/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:54310</value>
<description>The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.</description>
</property>
- 这是我的样子:

- 保存并关闭编辑器。
- 运行以下命令以使用“mapred-site.xml.template”模板创建“mapred-site.xml”文件:
cp mapred-site.xml.template mapred-site.xml
- 使用以下命令编辑“mapred-site.xml”:
gedit mapred-site.xml
- 这将打开一个编辑器。在<configuration></configuration>标签之间附加以下行。替换<TMP_FOLDER_PATH>为适当的路径。
<property>
<name>mapred.job.tracker</name>
<value>localhost:54311</value>
<description>The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map
and reduce task.
</description>
</property>
- 这是我的样子:

- 保存并关闭编辑器。
- 执行命令“cd”进入根目录。
- 通过运行以下命令格式化Hadoop文件系统:
hadoop namenode -format
- 重新启动您的机器。
- 打开终端并以“su”登录。
- 运行以下命令启动hadoop:
start-all.sh
- 运行此命令以检查是否所有服务都已启动:
jps

- 看起来NameNode服务没有运行。请按照以下步骤使其正常工作:
- 重新启动您的机器。
- 打开终端并以“su”登录。
- 输入“cd”移动到根目录。
- 执行命令“hadoop namenode -format”格式化hadoop文件系统。
- 执行命令“start-all.sh”启动所有服务。
- 执行命令“jps”检查是否所有服务都已启动。

- 现在打开您喜欢的浏览器并输入以下网址:
http://localhost:8088
- 如果一切都启动并运行,它会打开一个这样的页面:

- 键入以下url以检查数据节点以及浏览hadoop文件系统:
http://localhost:50070
- 这会打开一个这样的页面:

- 导航到“Utilities-->Browse the file system”以检查hadoop文件系统:

结论
希望您喜欢阅读并在您的ubuntu系统中成功安装hadoop。在我接下来的连续文章中,我将详细解释Hadoop的不同组件。
https://www.codeproject.com/Articles/1167462/Hadoop-Beginners-Guide-How-to-Install
1478

被折叠的 条评论
为什么被折叠?



