linux hadoop2.7安装教程,hadoop(一)CentOS7安装单机版Hadoop2.7.3

CentOS7安装单机版Hadoop2.7.3

前期准备安装java,拷贝oracle官网下载的jdk-8u111-linux-x64.rpm到虚拟机内。并安装:rpm -i jdk-8u111-linux-x64.rpm

设定java路径为环境变量,编辑/etc/profile文件,加入一行:export JAVA_HOME=/usr/java/latest

通过source命令应用JAVA_HOME环境变量,并验证echo $JAVA_HOME  //输出空路径source /etc/profileecho $JAVA_HOME  //此时输出正确的JAVA_HOME

拷贝hadoop-2.7.3.tar.gz到用户路径下。

解压缩tar -xf hadoop-2.7.3.tar.gz

获得hadoop-2.7.3目录,进入该目录下。

以standalone形式运行hadoop程序

第一步,以单机模式运行Hadoop程序:为Hadoop配置Java运行路径,编辑Hadoop-2.7.3路径下的 etc/hadoop/hadoop-env.sh 文件加入java路径,如下行:export JAVA_HOME=/usr/java/latest

执行Hadoop自带的mapReduce示例://在Hadoop-2.7.3路径下创建input目录$ mkdir input//将hadoop的配置拷贝到刚创建的input目录下$ cp etc/hadoop/*.xml input

//对input路径下的文件执行Hadoop自带示例中的MapReduce程序,并将输出写入到output目录中。**这里增加了2>>err.txt,由于Hadoop的输出一闪而过,通过这条参数将其输出到err.txt文件中。**

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input/ output/ 'dfs[a-z.]+' 2>>err.txt

$ cat output/*

执行后,查看err.txt文件发现报错,暂时不知道报错原因:EBADF:Bad file descriptor

通过命令查看output目录内的输出1 dfsadmin

注意如果要再次运行该mapReduce程序,要先删除output命令,否则会出现output目录已经存在的报错。

第二步,搭建伪分布式(开启HDFS)根据Apache的教程,配置core-site.xml和hdfs-site.xml

安装ssh

格式化分布式文件系统

$ bin/hdfs namenode -format

启动分布式文件系统,中间需要确认几次输入yes。分别启动namenode, datanode, secondarynamenode。

$ sbin/start-dfs.sh

浏览器访问http://localhost:50070可以看到远程访问hdfs的页面,启动HDFS成功。

在hdfs上创建input目录bin/hdfs dfs -mkdir /input

将文件系统中Hadoop-2.7.3安装目录下的配置路径etc/hadoop中所有的配置文件拷贝到hdfs上的/input目录中bin/hdfs dfs -put etc/hadoop/* /input

在HDFS上运行之前的mapReduce示例,并将错误日志输出到err2.txt:$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+' 2>>err2.txt

可以看到仍然包含bad file description异常。这个异常后面再去找原因。

查看刚才mapReduce计算的输出$ bin/hdfs dfs -cat /output/*

如果要关闭hdfs使用:$ sbin/stop-dfs.sh

第三步,在单节点上开启yarn根据Apache的官方教程,编辑两个配置文件mapred-site.xml和yarn-site.xml

键入命令启动yarnsbin/start-yarn.sh

如果要关闭yarn键入命令:sbin/stop-yarn.sh

总结最初只给虚拟机分配了2G的内存,单核CPU。在运行上面的MapReduce例子时会出现卡死的情况。分析日志发现同时有OutOfMemory和TimeOut两种异常。通过增加CPU到4核,内存到5G,在yarn上能够顺利的运行MapReduce例子了。

作者:文子轩

链接:https://www.jianshu.com/p/075715106a83

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实际上,Hadoop安装过程与操作系统的类型无关,因此我将为您提供一个基于Linux系统的Hadoop安装教程。请注意,以下教程仅供参考,您可以根据您的具体环境和需求进行修改。 1. 安装Java开发工具包(JDK): - 在终端中运行以下命令以安装OpenJDK: ``` sudo apt-get update sudo apt-get install openjdk-8-jdk ``` 2. 配置Java环境变量: - 打开“~/.bashrc”文件: ``` nano ~/.bashrc ``` - 在文件末尾添加以下行: ``` export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$JAVA_HOME/bin ``` - 保存并关闭文件,然后运行以下命令以使配置生效: ``` source ~/.bashrc ``` 3. 下载和解压Hadoop软件包: - 访问Hadoop官方网站(http://hadoop.apache.org)并下载适用于Linux的最新稳定版本。 - 打开终端并导航至下载目录。 - 使用以下命令解压下载的文件: ``` tar -xzvf hadoop-<version>.tar.gz ``` 4. 配置Hadoop环境变量: - 打开“~/.bashrc”文件: ``` nano ~/.bashrc ``` - 在文件末尾添加以下行: ``` export HADOOP_HOME=/path/to/hadoop-<version> export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` - 保存并关闭文件,然后运行以下命令以使配置生效: ``` source ~/.bashrc ``` 5. 配置Hadoop集群: - 导航至Hadoop的配置目录: ``` cd $HADOOP_HOME/etc/hadoop ``` - 编辑“hadoop-env.sh”文件: ``` nano hadoop-env.sh ``` - 设置JAVA_HOME环境变量为Java安装路径: ``` export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 ``` - 保存并关闭文件。 - 编辑“core-site.xml”文件: ``` nano core-site.xml ``` - 添加以下配置内容: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` - 保存并关闭文件。 - 编辑“hdfs-site.xml”文件: ``` nano hdfs-site.xml ``` - 添加以下配置内容: ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` - 保存并关闭文件。 - 编辑“mapred-site.xml.template”文件: ``` nano mapred-site.xml.template ``` - 添加以下配置内容: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` - 保存并关闭文件。 - 重命名“mapred-site.xml.template”为“mapred-site.xml”: ``` mv mapred-site.xml.template mapred-site.xml ``` - 编辑“yarn-site.xml”文件: ``` nano yarn-site.xml ``` - 添加以下配置内容: ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration> ``` - 保存并关闭文件。 6. 格式化Hadoop文件系统: - 在终端中运行以下命令以格式化HDFS: ``` hdfs namenode -format ``` 7. 启动Hadoop集群: - 在终端中运行以下命令以启动HDFS和YARN: ``` start-dfs.sh start-yarn.sh ``` 8. 检查Hadoop集群状态: - 在终端中运行以下命令以确保Hadoop集群正常运行: ``` jps ``` - 输出应包含NameNode、DataNode、ResourceManager和NodeManager等进程。 恭喜!您已经成功安装和配置了Hadoop。现在您可以开始使用Hadoop进行大数据处理和分析了。请记得根据您的具体需求进行进一步配置和调优。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值