配置Hadoop集群环境（1.1）

最新推荐文章于 2022-07-13 00:29:22 发布

DH520HW520

最新推荐文章于 2022-07-13 00:29:22 发布

阅读量202

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/DH520HW520/article/details/79974592

版权

linux 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

示例：使用hadoop里面的MapReduce统计data1中有哪些内容及字段出现频率

1.启动服务，start-all.sh后在浏览器中输入：python3:50070，建立与HDFS的关联
2.hadoop用户在工作目录下touch data1.txt，并新增内容
3.hadoop fs -mkdir -p /user/hadoop #-p为创建多级目录，该目录为文件上传路径
注：如果创建过程出现错误，如‘Name node is in safe mode’,需要进入hadoop-2.9.0目录下，执行命令：bin/hadoop dfsadmin -safemode leave

4.hadoop fs -put data1.txt #将本地文件data1.txt上传到hdfs上

5.统计字段个数

5.1进入/home/hadoop/opt/hadoop-2.9.0/share/hadoop/mapreduce下，执行命令：
hadoop jar hadoop-mapreduce-examples-2.9.0.jar wordcount /user/hadoop/ /user/output，
该命令后两个路径，其中前一个为需要解析统计的文件路径，后一个为文件统计后的存放路径

5.2可在浏览器打开的“Browse Directory”中输入/user/output查看统计结果，结果的文件名为part-r-00000

5.3hadoop用户可以回到工作目录下，输入hadoop fs -get /user/output/part-r-00000，将结果文件下载到工作目录下

5.4cat part-r-00000可以查看结果文件内容

--------------------------------------------------------------------------------------------------------------------------------

安装python3.6，并可以通过页面进行编程
1.hadoop用户将文件Anaconda3-5.0.1-Linux-x86_64.sh放在工作目录下
2.切换root用户安装bzip2：yum -y install bzip2
3.hadoop用户执行命令：bash Anaconda3-5.0.1-Linux-x86_64.sh，该命令执行过程中有一步可以自动配置环境变量，注意查看并输入yes进行确认
4.刷新source .bashrc后，输入python后输出了python的最新版本信息
5.hadoop用户执行：jupyter-notebook --ip python3（该命令启动yarn）后，提示：http://python3:8888/?token=b8b599d1cfcee69bd20a9bd4e88932d65cabb87ae20fa0fa
，在浏览器新开窗口中输入该url后即打开了http://python3:8888/tree页面
6.在打开的jupyter页面中，“New”一个新的notebook，开始编辑代码吧

--------------------------------------------------------------------------------------------------------------------------------

安装spark
利用spark中的MapReduce比使用hadoop中的MapReduce运行速度快近100倍，但是spark不能建立集群文件，需要依赖hadoop
1.hadoop用户将文件spark-2.2.1-bin-hadoop2.7.tgz放在工作目录下，并解压：
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C opt/
2.还是在该工作目录下，vi .bashrc后追加如下变量：
SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin
3.刷新source .bashrc
4.现在可以在任意的目录下输入spark-shell,之后显示图标并进入scala命令行

DH520HW520

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
配置Hadoop集群环境（1.1）

示例：使用hadoop里面的MapReduce统计data1中有哪些内容及字段出现频率1.启动服务，start-all.sh后在浏览器中输入：python3:50070，建立与HDFS的关联2.hadoop用户在工作目录下touch data1.txt，并新增内容3.hadoop fs -mkdir -p /user/hadoop #-p为创建多级目录，该目录为文件上传路径注：如果创建过程出现...
复制链接

扫一扫