示例:使用hadoop里面的MapReduce统计data1中有哪些内容及字段出现频率
1.启动服务,start-all.sh后在浏览器中输入:python3:50070,建立与HDFS的关联
2.hadoop用户在工作目录下touch data1.txt,并新增内容
3.hadoop fs -mkdir -p /user/hadoop #-p为创建多级目录,该目录为文件上传路径
注:如果创建过程出现错误,如‘Name node is in safe mode’,需要进入hadoop-2.9.0目录下,执行命令:bin/hadoop dfsadmin -safemode leave
hadoop jar hadoop-mapreduce-examples-2.9.0.jar wordcount /user/hadoop/ /user/output,
该命令后两个路径,其中前一个为需要解析统计的文件路径,后一个为文件统计后的存放路径
5.2可在浏览器打开的“Browse Directory”中输入/user/output查看统计结果,结果的文件名为part-r-00000
5.3hadoop用户可以回到工作目录下,输入hadoop fs -get /user/output/part-r-00000,将结果文件下载到工作目录下
5.4cat part-r-00000可以查看结果文件内容
--------------------------------------------------------------------------------------------------------------------------------
安装python3.6,并可以通过页面进行编程
1.hadoop用户将文件Anaconda3-5.0.1-Linux-x86_64.sh放在工作目录下
2.切换root用户安装bzip2:yum -y install bzip2
3.hadoop用户执行命令:bash Anaconda3-5.0.1-Linux-x86_64.sh,该命令执行过程中有一步可以自动配置环境变量,注意查看并输入yes进行确认
4.刷新source .bashrc后,输入python后输出了python的最新版本信息
5.hadoop用户执行:jupyter-notebook --ip python3(该命令启动yarn)后,提示:http://python3:8888/?token=b8b599d1cfcee69bd20a9bd4e88932d65cabb87ae20fa0fa
,在浏览器新开窗口中输入该url后即打开了http://python3:8888/tree页面
6.在打开的jupyter页面中,“New”一个新的notebook,开始编辑代码吧
利用spark中的MapReduce比使用hadoop中的MapReduce运行速度快近100倍,但是spark不能建立集群文件,需要依赖hadoop
1.hadoop用户将文件spark-2.2.1-bin-hadoop2.7.tgz放在工作目录下,并解压:
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C opt/
2.还是在该工作目录下,vi .bashrc后追加如下变量:
SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin
3.刷新source .bashrc
4.现在可以在任意的目录下输入spark-shell,之后显示图标并进入scala命令行
1.启动服务,start-all.sh后在浏览器中输入:python3:50070,建立与HDFS的关联
2.hadoop用户在工作目录下touch data1.txt,并新增内容
3.hadoop fs -mkdir -p /user/hadoop #-p为创建多级目录,该目录为文件上传路径
注:如果创建过程出现错误,如‘Name node is in safe mode’,需要进入hadoop-2.9.0目录下,执行命令:bin/hadoop dfsadmin -safemode leave
4.hadoop fs -put data1.txt #将本地文件data1.txt上传到hdfs上
5.统计字段个数
hadoop jar hadoop-mapreduce-examples-2.9.0.jar wordcount /user/hadoop/ /user/output,
该命令后两个路径,其中前一个为需要解析统计的文件路径,后一个为文件统计后的存放路径
5.2可在浏览器打开的“Browse Directory”中输入/user/output查看统计结果,结果的文件名为part-r-00000
5.3hadoop用户可以回到工作目录下,输入hadoop fs -get /user/output/part-r-00000,将结果文件下载到工作目录下
5.4cat part-r-00000可以查看结果文件内容
--------------------------------------------------------------------------------------------------------------------------------
安装python3.6,并可以通过页面进行编程
1.hadoop用户将文件Anaconda3-5.0.1-Linux-x86_64.sh放在工作目录下
2.切换root用户安装bzip2:yum -y install bzip2
3.hadoop用户执行命令:bash Anaconda3-5.0.1-Linux-x86_64.sh,该命令执行过程中有一步可以自动配置环境变量,注意查看并输入yes进行确认
4.刷新source .bashrc后,输入python后输出了python的最新版本信息
5.hadoop用户执行:jupyter-notebook --ip python3(该命令启动yarn)后,提示:http://python3:8888/?token=b8b599d1cfcee69bd20a9bd4e88932d65cabb87ae20fa0fa
,在浏览器新开窗口中输入该url后即打开了http://python3:8888/tree页面
6.在打开的jupyter页面中,“New”一个新的notebook,开始编辑代码吧
--------------------------------------------------------------------------------------------------------------------------------
利用spark中的MapReduce比使用hadoop中的MapReduce运行速度快近100倍,但是spark不能建立集群文件,需要依赖hadoop
1.hadoop用户将文件spark-2.2.1-bin-hadoop2.7.tgz放在工作目录下,并解压:
tar -zvxf spark-2.2.1-bin-hadoop2.7.tgz -C opt/
2.还是在该工作目录下,vi .bashrc后追加如下变量:
SPARK_HOME=/home/hadoop/opt/spark-2.2.1-bin-hadoop2.7
PATH=$PATH:$SPARK_HOME/bin
3.刷新source .bashrc
4.现在可以在任意的目录下输入spark-shell,之后显示图标并进入scala命令行