第一步 以管理员打开Windows PowerShell
第二步 安装wsl以及Ubuntu
wsl --install
wsl --install -d Ubuntu
第三步 安装Docker
官网网址
https://docs.docker.com/desktop/install/windows-install/
可以看到,官网说了安装docker for windows前需要有wsl 2 backend
3.1 证实docker可以运行
docker run -d -p 80:80 --name myserver nginx
docker ps
第四步 在docker上安装hadoop
GitHub网址
https://github.com/big-data-europe/docker-hadoop
(直接搜docker hadoop 星最多的就是这个欧洲大数据)
下载该项目到宿主机后
4.1 cmd进入hadoop目录
执行docker-compose一键拉镜像启动容器
docker-compose up -d
第五步 选择namenode容器进入
docker exec -it namenode bash
第六步 创建hdfs文件夹
hadoop fs -mkdir -p input
hadoop fs -ls
第六步 将data.txt从windows放入namenode容器再放入hdfs文件
6.1 将data.txt、WordCount.jar从windows复制到namenode容器
先cmd进入data.txt所在目录再执行以下命令
docker cp ./data.txt namenode:/
docker cp ./WordCount.jar namenode:/
进入容器可以ls直接检查
6.2 将namenode容器里的data.txt放入hdfs的input
进入容器输入下列命令
hdfs dfs -put data.txt input
第七步 运行WordCount.jar程序
hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output
第八步 显示运行结果
WordCount运行结束后会输出output文件夹,其中part-r-00000就是记录结果的txt文件
hdfs dfs -cat output/part-r-00000
第九步 将输出的output从hdfs拷贝到容器再从容器拷贝到windows
9.1 从hdfs上拷贝output到容器
hadoop fs -get ./output ./
9.2 从namenode容器将output拷贝到windows
cmd进入目的目录
docker cp namenode:./output ./
第十步 关闭所有容器
cmd下
docker-compose down
删除hdfs文件、文件夹
hadoop fs -rm -r -skipTrash ./folder_name