配置Hadoop集群环境(1.1)

示例:使用hadoop里面的MapReduce统计data1中有哪些内容及字段出现频率

1.启动服务,start-all.sh后在浏览器中输入:python3:50070,建立与HDFS的关联
2.hadoop用户在工作目录下touch data1.txt,并新增内容
3.hadoop fs -mkdir -p /user/hadoop   #-p为创建多级目录,该目录为文件上传路径
注:如果创建过程出现错误,如‘Name node is in safe mode’,需要进入hadoop-2.9.0目录下,执行命令:bin/hadoop dfsadmin -safemode leave

4.hadoop fs -put data1.txt    #将本地文件data1.txt上传到hdfs上


5.统计字段个数


5.1进入/home/hadoop/opt/hadoop-2.9.0/share/hadoop/mapreduce下,执行命令:
hadoop jar hadoop-mapreduce-examples-2.9.0.jar wordcount /user/hadoop/ /user/output,
该命令后两个路径,其中前一个为需要解析统计的文件路径,后一个为文件统计后的存放路径


5.2可在浏览器打开的“Browse Directory”中输入/user/output查看统计结果,结果的文件名为part-r-00000


5.3hadoop用户可以回到工作目录下,输入hadoop fs -get /user/output/part-r-00000,将结果文件下载到工作目录下


5.4cat part-r-00000可以查看结果文件内容



--------------------------------------------------------------------------------------------------------------------------------


安装python3.6,并可以通过页面进行编程
1.hadoop用户将文件Anaconda3-5.0.1-Linux-x86_64.sh放在工作目录下
2.切换root用户安装bzip2:yum -y install bzip2
3.hadoop用户执行命令:bash Anaconda3-5.0.1-Linux-x86_64.sh,该命令执行过程中有一步可以自动配置环境变量,注意查看并输入yes进行确认
4.刷新source .bashrc后,输入python后输出了python的最新版本信息
5.hadoop用户执行:jupyter-notebook --ip python3(该命令启动yarn)后,提示:http://python3:8888/?token=b8b599d1cfcee69bd20a9bd4e88932d65cabb87ae20fa0fa
,在浏览器新开窗口中输入该url后即打开了http://python3:8888/tree页面
6.在打开的jupyter页面中,“New”一个新的notebook,开始编辑代码吧


--------------------------------------------------------------------------------------------------------------------------------


安装spark
利用spark中的MapReduce比使用hadoop中的MapReduce运行速度快近100倍,但是spark不能建立集群文件,需要依赖hadoop
1.hadoop用户将文件spark-2.2.1-bin-hadoop2.7.tgz放在工作目录下,并解压:
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C opt/
2.还是在该工作目录下,vi .bashrc后追加如下变量:
SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin
3.刷新source .bashrc
4.现在可以在任意的目录下输入spark-shell,之后显示图标并进入scala命令行
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值