使用 docker 一键搭建 hadoop,hbase, hive 等大数据集群

注意

资源的下载地址:
链接:https://pan.baidu.com/s/1kPIsw62TpUHQp7HN6r4HAw?pwd=mfyx 提取码:mfyx
有问题联系我:lizhenchao@atguigu.cn

脚本的运行环境: centos7.5 +

目录说明

  • 不要更改docker_bigdata及子目录的目录结构
  • 进入到docker_bigdata目录下再执行脚本

镜像构建说明

  • build_all.sh 可以构建需要用到的所有镜像, 运行的时候, 根据自己的需要选择需要构建的镜像,最后会创建 3 个容器 hadoop162, hadoop163, hadoop164
  • 容器构建后, 直接可用的环境包括
    1. hadoop集群
    2. zookeeper集群
    3. kafka集群
    4. hbase集群
    5. es集群
    6. redis
    7. hive
    8. spark
    9. Phoenix

容器启动说明

  • contains.sh start 启动集群容器
  • 启动的时候会自动根据当前宿主机的 ip 进行配置, 3 个容器的 ip 分别是 xxx.162, xxx.163, xxx.164, xxx 是根据当前宿主的 ip 自动获取的
  • 内置了root和atguigu用户, 密码均为aaaaaa
  • 容器第一次启动已经完成的事情
    1. 虚拟机与容器之间免密登录
    2. 容器与容器之间免密登录
    3. 格式化hdfs
    4. 给mysql的root用户设置密码为aaaaaa

特别说明

  • 容器一旦创建成功之后, 以后使用的时候启动即可
  • 启动 hadoop: hadoop.sh start
  • 启动 kafka: kafka.sh start
  • 启动 zookeeper: zk start
  • 启动 hbase: start-hbase.sh
Docker是一种容器化技术,用于创建、部署和管理应用程序的容器。Hadoop是一个分布式计算框架,用于处理大数据集并在集群进行高速计算。HBase是一个面向列的分布式数据库,用于存储和管理大规模的结构化数据。Hive是一个基于Hadoop的数据仓库基础架构,用于提供简化的查询和分析大数据的能力。而Spark是一个高级的分布式计算系统,用于加速大规模数据处理和分析。 在使用这些技术时,Docker可以用于快速搭建和部署容器化的HadoopHBaseHive和Spark环境。使用Docker容器,我们可以轻松地在任何机器上部署这些组件,而无需担心环境配置的问题。 Hadoop是一个开源的分布式计算框架,它可以容纳大规模数据并以可靠的方式在集群进行处理。通过用Docker容器来运行Hadoop,我们可以更快地搭建和管理Hadoop集群,并且容易进行监控和维护。 HBase是一个分布式数据库系统,以表的形式存储数据,并提供高效的读写操作。通过Docker容器,我们可以轻松地部署HBase集群,并且可以根据需求进行水平扩展,以满足不同规模的数据存储需求。 Hive是一个基于Hadoop的数据仓库基础架构,它提供了类似于SQL的查询接口,方便用户进行大规模数据的查询和分析。使用Docker容器,我们可以轻松地搭建Hive环境,并通过对容器进行配置和管理,优化Hive的性能。 Spark是一个高级的分布式计算系统,它强调内存计算和迭代计算的能力,从而加速大规模数据处理和分析。通过Docker容器,我们可以快速部署和管理Spark集群,并且可以根据需求进行资源配置和任务调度,以实现高性能和高吞吐量的数据处理。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值