Hadoop的综合应用

最新推荐文章于 2024-04-07 22:30:45 发布

laihunyixia

最新推荐文章于 2024-04-07 22:30:45 发布

阅读量401

点赞数

文章标签： hadoop mapreduce hdfs

本文链接：https://blog.csdn.net/laihunyixia/article/details/111654950

版权

1.将待分析的文件（不少于10000英文单词）上传到HDFS
数据集：莎士比亚《十四行诗》，数据集共有194788行数据。
数据上传到HDFS:
在这里插入图片描述
2.调用MapReduce对文件中各个单词出现的次数进行统计

3.将统计结果下载本地。
在这里插入图片描述

4.将Hadoop的搭建（可查看林子雨论坛教程的截图，可以不进行重新安装软件）
到MapReduce文件上传、上述要求的过程、以及你的分析过程和分析结果，写成一篇博客，发布在CSDN上，字数不少于1000字

题目：莎士比亚《十四行诗》词频统计
过程：
（1）hadoop集群搭建
（1）创建虚拟机
首先在浏览器中输入网址，进入ubantu虚拟机官网，根据自身电脑配置，选择相应的虚拟机镜像，进行下载。
（2）安装虚拟机
在VMware工具中，点击新建虚拟机，出现如下图所示界面。在这里，我们选择自定义配置。在自定义配置中，用户可以对虚拟机中的网络、主机名等信息进行配置。

（3）下载JDK
在Linux系统中安装JDK分为两种方式。第一种方式是在windows平台中下载JDK安装包，通过第三方传输软件将其上传至虚拟机。第二种方式是利用wget或者yum命令，进行在线下载。使用第二种下载方式需要在linux虚拟机中预先安装该组件。本次系统设计采用的是第一种下载方式，通过Fzip传输工具将JDK安装包上传至虚拟机。JDK安装包是tar文件，所以要用tar -zxvf命令对其进行解压。解压界面如下图所示。
（4）配置java环境
Hadoop是Java编码的，首先要下载jdk1.7，然后配置系统环境变量。在终端通过java -version命令查看是否配置好jdk1.7。若输入命令后出现Java的版本信息等，证明配置成功。
在这里插入图片描述
（5）SSH免密登录
要构建Hadoop集群，就要确保集群结点间的无密码登录。要将集群结点中的所有主机名和对应的IP地址写到每台机器的//etc/hosts目录下。在确保每台机器安装好SSH server后可以在master结点使用SSH命令连通两个worker结点。连通成功后，将公钥信息authorize走keys复制到Workerl结点和Worker2结点中。这样Master再通过SSH登录两台Worker结点时就可以不需要密码了。
（6）Hadoop文件配置
修改core-site.xml的内容。主要是将属性fs.defaultFS设置为hdfs://master:9000。并为Hadoop添加临时文件存放路径hadoop.tmp.dir。
在这里插入图片描述

对hdfs-site.xml内容进行修改，将其中的dfs.replication属性设置为2，并为Hadoop集群设置dfs.namenode.name.dir的路径和dfs.datanode.data.dir的路径。
在这里插入图片描述

修改mapred-env.sh文件，导入jdk的安装目录。
最后修改yarn-site.xml文件，将yarn.resourcemanager.hostname属性设置为Master结点的主机名mastere更改slave文件的内容，需要将Hadoop集群中的结点名称包含在里面。
在这里插入图片描述

（8）启动集群。
在主节点hadoop安装目录下，执行命令：start-all.sh，启动hadoop集群。第一次启动需要对namenode将进行初始化操作。
在这里插入图片描述

（9）将数据集文件上传到hdfs：hadoop dfs -put data.txt /
在这里插入图片描述

(10)执行jar包：hadoop jar /home/hadoop/wordcount.jar com.mr.part1.WordCount
在这里插入图片描述

（10）查看结果：hadoop dfs -cat /output/part-r-00000

    ![在这里插入图片描述](https://img-blog.csdnimg.cn/20201224205146610.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xhaWh1bnlpeGlh,size_16,color_FFFFFF,t_70#pic_center)

laihunyixia

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
Hadoop的综合应用

1.将待分析的文件（不少于10000英文单词）上传到HDFS数据集：莎士比亚《十四行诗》，数据集共有194788行数据。数据上传到HDFS:2.调用MapReduce对文件中各个单词出现的次数进行统计3.将统计结果下载本地。4.将Hadoop的搭建（可查看林子雨论坛教程的截图，可以不进行重新安装软件）到MapReduce文件上传、上述要求的过程、以及你的分析过程和分析结果，写成一篇博客，发布在CSDN上，字数不少于1000字题目：莎士比亚《十四行诗》词频统计过程：（1）hado
复制链接

扫一扫