hadoop-2.7.4-翻译文档-集群部署

最新推荐文章于 2023-08-20 23:03:28 发布

半肉哥

最新推荐文章于 2023-08-20 23:03:28 发布

阅读量576

点赞数

分类专栏： hadoop 文章标签： hadoop 集群

hadoop 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

准备

JDK。
SSH。
下载hadoop-2.7.4.tar.gz

本地模式

1.tar开hadoop包

$>tar -zxvf hadoop-2.7.4.tar.gz

2.配置环境变量

[etc/environment]
    PATH=...:hadoop_path/bin:hadoop_path/sbin
    HADOOP_HOME=hadoop_path

3.验证安装

$>hadooop

伪分布式

1.修改配置文件

[hadoop_home/etc/hadoop/core-site.xml]
    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>

[hadoop_home/etc/hadoop/hdfs-site.xml]
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>

2.配置无秘登录

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
验证 $>ssh localhost

3.执行
以下操作指导采用本地MapReduce程序运行mr作业，如果要使用YARN运行，请配置单节点YARN 。

1.格式化文件系统：
    $>hdfs namenode -format
2.启动NameNode守护进程和DataNode守护进程：
    $>start-dfs.sh
    (用jps命令，需要有如下java进程正确启动：
        $>jps
            ...
            xxx NameNode
            xxx SecondaryNamenode
            xxx DataNode)
    注：hadoop守护程序日志保存为${HADOOP_LOG_DIR}目录，默认为${HADOOP_HOME}/logs。
3.浏览NameNode的WebUI;，默认地址：
    http://localhost:50070/
4.本地mr作业运行
    1)创建运行mr作业需要的目录：
        $>hdfs dfs -mkdir -p /user/username/mrInput
        $>hdfs dfs -mkdir -p /user/username/mrOutput
    2)将mr作业源文件导入到hdfs：
        $>hdfs dfs -put /aimFile
    3)运行mr实例(mr代码需提前编写)：
        $>hadoop jar wordcount.jar wordcount.WordCount /user/username/mrInput /user/username/mrOutput
    4)检查输出文件：
        将输出文件从分布式文件系统下载到本地：
            $>hdfs dfs -get /user/username/mrOutput/...
        也可以直接在hdfs上查看：
            $>hdfs dfs -cat /user/username/mrOutput/...
5.工作完成后，关闭守护进程：
    $>stop-dfs.sh

4.单节点YARN

注：2.7.4版本存在nodemanager无法启动问题，解决方案请参照:

[http://blog.csdn.net/anyuzun/article/details/78045601 ]

1.通过参数以便启用YARN服务，守护进程包括ResourceManager和NodeManager。
    [hadoop_home/etc/hadoop/mapred-site.xml]
        <configuration>
            <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
            </property>
        </configuration>
    [hadoop_home/etc/hadoop/yarn-site.xml]
        <configuration>
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
        </configuration>
2.启动ResourceManager和NodeManager守护程序：
    $>start-yarn.sh
3.访问ResourceManager的WebUI; 默认情况地址为：
    http://localhost:8088/
4.运行MapReduce作业。
5.作业完成后，关闭守护进程：
    $>stop-yarn.sh

完全分布式

参照连接 [http://blog.csdn.net/anyuzun/article/details/78022887 ]

高可用集群

qjm高可用参照 [http://blog.csdn.net/anyuzun/article/details/78065434 ]
yarn高可用参照 [http://blog.csdn.net/anyuzun/article/details/78069399 ]
附qjm高可用最简配置[http://download.csdn.net/download/anyuzun/9991582 ]