hadoop2.7.0实践-环境搭建

最新推荐文章于 2023-12-19 18:16:14 发布

segen_jaa

最新推荐文章于 2023-12-19 18:16:14 发布

阅读量6.3k

点赞数

分类专栏：大数据文章标签： hadoop ubuntu

本文链接：https://blog.csdn.net/segen_jaa/article/details/47816665

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文档说明
本文档为hadoop搭建实践文档，相关理论可到hadoop官网查看学习。
操作系统：Ubuntu14 x64位
Hadoop：Hadoop 2.7.0

Ubuntu官网：http://www.ubuntu.com/download/desktop
下载地址：
http://211.167.105.77:83/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/releases.ubuntu.com/14.04.2/ubuntu-14.04.2-desktop-amd64.iso
Hadoop官网：http://hadoop.apache.org/releases.html
单机版配置官网说明
http://hadoop.apache.org/docs/r2.7.0/hadoop-project-dist/hadoop-common/SingleCluster.html

1.安装Ubuntu
可以将iso文件格式化到U盘中，安装Ubuntu系统，具体实施步骤可自行百度。

2.安装配置Jdk
步骤参见：http://wxinpeng.iteye.com/blog/2098955。

2.1.下载jdk-7u79-linux-x64.tar.gz
下载网址：
http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

2.2.解压JDK

$sudo tar zxvf jdk-7u79-linux-x64.tar.gz -C /usr/lib/jvm

2.3.设置环境变量（全局）
$sudo gedit /etc/profile
打开profile文件输入

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79
export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
export PATH="$JAVA_HOME/bin:$PATH"

2.4.设置系统默认JDK

$sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.7.0_79/bin/java 300
$sudo update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/jdk1.7.0_79/bin/javac 300
$sudo update-alternatives --config java

2.5.验证JDK

$java -version

3.安装配置hadoop

3.1.下载hadoop

3.2.配置对应包

$ sudo apt-get install ssh
$ sudo apt-get install rsync

3.3.配置etc/hadoop/hadoop-env.sh

# set to the root of your Java installation
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79

3.4.测试一下

$bin/hadoop

3.5.运行简单例子

$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'
$ cat output/*

3.6.配置相关文件
文件etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

文件etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

3.7.检测ssh

$ssh localhost

3.8.执行mapreduce job
1)格式化文件系统

 $ bin/hdfs namenode –format

2)启动服务

$ sbin/start-dfs.sh

3)浏览网页
NameNode - http://localhost:50070/
4)创建目录

$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/jsl

5)复制文件

$ bin/hdfs dfs -put etc/hadoop input

6)执行程序

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'

7)查看结果

$ bin/hdfs dfs -get output
$ cat output/*

8)退出服务

$sbin/stop-dfs.sh

4.配置yarn
Yarn是hadoop的资源调度器，可以配置mapreduce job基于yarn运行。
1)配置etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

2)配置etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

3)启动服务

$ sbin/start-yarn.sh

4)浏览检测
ResourceManager - http://localhost:8088/
5)退出服务

$ sbin/stop-yarn.sh

常见问题及命令
1)查看对应hadoop版本

file lib/native/libhadoop.so.1.0.0

2)查看操作系统对应版本

cat /etc/issue

3)版本不一致时调整
删除临时目录

cd /tmp/hadoop-jsl/dfs/data
rm -rf current

segen_jaa

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录