Hadoop之旅(1)—单机与伪集群安装、简单经典案例

1、准备工作

环境:centsOS7.0、jdk1.8

发行版 :Hadoop2.5.0


2、Hadoop目录结构

binHadoop最基本的管理脚本和使用脚本所在目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop

etcHadoop配置文件所在的目录,包括core-site.xmlhdfs-site.xmlmapred-site.xml等从Hadoop 1.0继承而来的配置文件和yarn-site.xml

include对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用,这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编MapReduce程序。

lib该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

libexec各个服务对应的shell配置文件所在目录,可用于配置日志输出目录、启动参数(比如目录、启动参数(比如JVM参数)等基本信息。

sbinHadoop管理脚本所在目录,主要包含HDFSYARN中各类服务的启动的启动/关闭脚本。

shareHadoop各个模块编译后的jar包所在目录


3、单机版安装(Local (Standalone) Mode)

步骤1将安装包hadoop-2.5.0.tar.gz存放到某一目录下,并解压步骤。

步骤2修改解压后的目录中的文件夹etc/hadoop下的xml配置文件(如果文件不存在,则自己创建)果文件不存在,则自己创建)


修改 hadoop-env.sh文件修改以下配置:

export JAVA_HOME=/usr/local/java/jdk1.8.0_121


3.1、单机版—案例1

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar grep input output 'dfs[a-z.]+'



案例1结果

cat output/*



3.2、单机版—案例2(经典案例统计单词的次数)

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount  wordinput wordoutput







4、搭建伪分布式

4.1、HDFS部署搭建(经典案例统计单词次数-在MaoReduce运行)

etc/hadoop/core-site.xml
<configuration>

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://czy-1:8888</value>
    </property>
	
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/chenzhengyou/hadoop/standalone/hadoop-2.5.0/data/tmp</value>
    </property>
	
</configuration>



etc/hadoop/hdfs-site.xml
<configuration>
    <!--副本数-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

4.1.2、格式化hdfs



4.1.3、几个命令

创建:bin/hdfs dfs -mkdir -p user/chenzy/wordcount/input
上传:bin/hdfs dfs -put -p wcinput/word.input chenzhengyou/mapreduce/wordcount/input(红色的是本地的)

4.1.4、启动界面(2.5版本界面看着很舒服)

启动:
   sbin/hadoop-daemon.sh start namenode
   sbin/hadoop-daemon.sh start datanode






4.2.1、YARN搭建部署(经典案例统计单词次数-在yarn运行)

etc/hadoop/yarn-site.xml
<configuration>

	<!-- Site specific YARN configuration properties -->
	<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
	
	<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>czy-1</value>
    </property>
</configuration>

etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>


4.2.2、启动界面






阅读更多

扫码向博主提问

chenzhengyou天道酬勤

非学,无以致疑;非问,无以广识
  • 擅长领域:
  • java
  • mysql
  • redis
去开通我的Chat快问
版权声明:本文为博主原创文章,可允许转载,但注明出处。 https://blog.csdn.net/JavaWebRookie/article/details/73249424
所属专栏: Hadoop之旅
上一篇Java应用Tomcat执行过程之性能调优
下一篇Hadoop之旅(2)—伪集群 HDFS 文件读取与上传案例、权限与安全模式
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭