既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
安装报错
如果 Docker Desktop 安装过程中出现如下错误:
直接点击报错信息中的链接,更新 Linux 内核即可,
点击链接后进入如下页面
下载这个 WSL2 Linux kernel update package for x64 machines
升级包,并安装之后点击 Docker desktop 安装报错提示框中的 Restart
,就能顺利安装完成并启动了。
启动运行 Docker
安装完成之后,桌面可以看到 Docker desktop 快捷方式,双击启动,启动成功之后会在 Windows 任务栏出现如下图的鲸鱼图标。
这时就可以在 PowerShell 使用 Docker 命令使用 Docker 了
国内镜像加速
国内从 Docker Hub 拉取镜像有时会遇到困难,此时需要配置国内镜像源进行加速
Windows 安装的 Docker Desktop 配置十分简单,只需要在任务栏托盘 Docker 图标内右键菜单选择 Settings,打开配置窗口后在左侧导航菜单选择 Docker Engine,在右侧像下边一样编辑 json 文件,之后点击 Apply & Restart 保存后 Docker 就会重启并应用配置的镜像地址了。
{
"registry-mirrors": [
"https://hub-mirror.c.163.com",
"https://mirror.baidubce.com"
]
}
配置完成之后,在 PowerShell 使用 docker info
命令,如果控制台输出如下内容,说明配置成功
Registry Mirrors:
https://hub-mirror.c.163.com/
02 下载 Hadoop 镜像
创建 Hadoop 容器我们需要合适的 Hadoop 镜像,这里我们使用 Github 上高赞的 docker-hadoop 镜像,使用如下命令将镜像克隆到本地
git clone https://github.com/big-data-europe/docker-hadoop.git
然后进入到 docker-hadoop
目录下运行
docker-compose up -d
下载 hadoop 镜像并创建容器。
该命令执行完成之后使用 docker container ls
命令查看被启动的容器,我们可以看到如下 5 个节点
Hadoop 集群被成功启动后,可以通过如下 URL 访问各节点
Namenode: http://<dockerhadoop_IP_address>:9870/dfshealth.html#tab-overview
History server: http://<dockerhadoop_IP_address>:8188/applicationhistory
Datanode: http://<dockerhadoop_IP_address>:9864/
Nodemanager: http://<dockerhadoop_IP_address>:8042/node
Resource manager: http://<dockerhadoop_IP_address>:8088/
通过浏览器访问 Namenode 可以看到如下 Hadoop 集群管理页面
增加数据节点
到这里 Hadoop 集群已经创建完成了,如果想增加节点,可以通过修改 docker-hadoop 中的 docker-compose.yml
文件来实现。
例如,我们给当前集群增加两个数据节点 datanode 对 docker-compose.yml
文件修改如下:
datanode:
image: bde2020/hadoop-datanode:2.0.0-hadoop3.2.1-java8
container\_name: datanode
restart: always
volumes:
- hadoop_datanode:/hadoop/dfs/data
environment:
SERVICE\_PRECONDITION: "namenode:9870"
env\_file:
- ./hadoop.env
datanode2:
image: bde2020/hadoop-datanode:2.0.0-hadoop3.2.1-java8
container\_name: datanode2
restart: always
volumes:
- hadoop_datanode2:/hadoop/dfs/data
environment:
SERVICE\_PRECONDITION: "namenode:9870"
env\_file:
- ./hadoop.env
datanode3:
image: bde2020/hadoop-datanode:2.0.0-hadoop3.2.1-java8
container\_name: datanode3
restart: always
volumes:
- hadoop_datanode3:/hadoop/dfs/data
environment:
SERVICE\_PRECONDITION: "namenode:9870"
env\_file:
- ./hadoop.env
然后重新执行 docker-compose up -d
增加节点
03 测试 Hadoop 集群
测试准备
我们使用简单的词频统计 mapreduce 任务来测试 Hadoop 集群
首先下载 hadoop-mapreduce-examples jar 包
然后使用如下命令将这个 jar 包拷贝到 namenode 节点
docker cp .\hadoop-mapreduce-examples-2.7.1.jar namenode:/tmp/
然后我们创建一个 input.txt
测试文件,并输入文字内容
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
真正的技术提升。**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!