MapReduce、python3.6、spark

1.启动服务:start-dfs.sh  start-yarn.sh
2.在hadoop文件夹下创建 data1.txt文本
3.vi data1.txt 保存退出
4.cat data1.txt
5.hadoop fs -mkdir -p /user/hadoop  (-p:创建多级目录)


出现这个情况 需要去 hadoop-2.9.0/bin目录下执行:hadoop dfsadmin -safemode leave


6.hadoop fs -put data1.txt  #将本地文件上传到hdfs中





进入 opt/hadoop-2.9.0/share/hadoop/mapreduce执行命令:
hadoop jar hadoop-mapreduce-examples-2.9.0.jar wordcount /user/hadoop/ /user/output



执行命令后会生成两个路径,前一个为解析统计文件路径,后一个为文件统计后存放的路径

7.hadoop fs -get/user/output/part-r-00000,将结果下载到工作目录下


安装python3.6
  如果运行yum -y install bzip2 不行的话,就去检查网络设置是否出现问题
1.将Anconda3-5.0.1-Linux-86_64.sh 放在hadoop文件夹下
2.在root用户中执行 yum -y install bzip2


3.切换hadoop用户 bash Anaconda3-5.0.1-Linux-x86_64.sh  然后回车yes  回车 回车。。。 等待安装
4.source .bashrc 刷新
5.hadoop用户执行 jupyter-notebook --ip python3(需要启动yarn)
复制链接 进入浏览器可以编写python代码






安装spark
 spark中MapReduce运行比hadoop中的MapReduce运行快,但spark不能建立集群,依赖hadoop
1.在hadoop用户下解压spark安装包放在 opt中
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C opt/

    执行yum -y install wget,以后安装不用下载到本地,直接通过网络传输协议,直接安装软件

2.配置spark的环境变量,然后刷新,在执行spark-shell





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值