hadoop fs -mkdir -p /user/hadoop 创建一个目录
hadoop fs -rm-r /user/hadoop 删除目录
hadoop fs -put data.txt 上传文件
hadoop fs -cat data.txt 查看文件
exit() 退出
source 更新
start-dfs.sh 启动hadoop 三个Node
start-yarn.sh 两个Manager
jupyter notebook --ip python5 虚拟机里退出jupyter Ctrl+c
在丘比特网址写代码,先运行环境代码
import os
import sys
spark_home = os.environ.get('SPARK_HOME',None)
if not spark_home:
raise ValueError('SPARK_HOME enviroment variable is not set')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip'))
exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())
等出现welcome to 就OK了,就可以在下面的框里面写代码了
map 将数据打散成你想要的格式
reduce 根据键值对进行统计
hadoop 存贮数据 MapReduce分析数据