使用docker安装Hadoop和Spark

使用docker配置安装hadoop和spark

分别安装hadoop和spark镜像

安装hadoop镜像

选择的docker镜像地址,这个镜像提供的hadoop版本比较新,且安装的是jdk8,可以支持安装最新版本的spark。

docker pull uhopper/hadoop:2.8.1

安装spark镜像

如果对spark版本要求不是很高,可以直接拉取别人的镜像,若要求新版本,则需要对dockerfile进行配置。

环境准备

  1. 下载sequenceiq/spark镜像构建源码

    git clone https://github.com/sequenceiq/docker-spark
    
  2. 从Spark官网下载Spark 2.3.2安装包

  3. 将下载的文件需要放到docker-spark目录下

  4. 查看本地image,确保已经安装了hadoop

  5. 进入docker-spark目录,确认所有用于镜像构建的文件已经准备好

    • image-20181030125353071

修改配置文件

  • 修改Dockerfile为以下内容

    • FROM sequenceiq/hadoop-docker:2.7.0
      MAINTAINER scottdyt
      
      #support for Hadoop 2.7.0
      #RUN curl -s 
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以通过以下步骤在 Docker 中部署 HadoopSpark: 1. 安装 DockerDocker Compose。 2. 创建一个 Docker Compose 文件 `docker-compose.yml`: ```yaml version: '3' services: namenode: image: sequenceiq/hadoop-docker:2.7.0 container_name: namenode hostname: namenode ports: - "50070:50070" - "9000:9000" volumes: - ./data:/hadoop/dfs/name - ./config/core-site.xml:/etc/hadoop/core-site.xml - ./config/hdfs-site.xml:/etc/hadoop/hdfs-site.xml environment: - CLUSTER_NAME=hadoop - NODE_TYPE=NAMENODE datanode: image: sequenceiq/hadoop-docker:2.7.0 container_name: datanode hostname: datanode volumes: - ./data:/hadoop/dfs/data - ./config/core-site.xml:/etc/hadoop/core-site.xml - ./config/hdfs-site.xml:/etc/hadoop/hdfs-site.xml environment: - CLUSTER_NAME=hadoop - NODE_TYPE=DATANODE depends_on: - namenode resourcemanager: image: sequenceiq/spark:1.6.0 container_name: resourcemanager hostname: resourcemanager ports: - "8088:8088" - "8042:8042" - "4040:4040" volumes: - ./config/core-site.xml:/etc/hadoop/core-site.xml - ./config/hdfs-site.xml:/etc/hadoop/hdfs-site.xml - ./config/yarn-site.xml:/etc/hadoop/yarn-site.xml environment: - CLUSTER_NAME=hadoop - NODE_TYPE=RESOURCEMANAGER depends_on: - namenode - datanode nodemanager: image: sequenceiq/spark:1.6.0 container_name: nodemanager hostname: nodemanager volumes: - ./config/core-site.xml:/etc/hadoop/core-site.xml - ./config/hdfs-site.xml:/etc/hadoop/hdfs-site.xml - ./config/yarn-site.xml:/etc/hadoop/yarn-site.xml environment: - CLUSTER_NAME=hadoop - NODE_TYPE=NODEMANAGER depends_on: - namenode - datanode - resourcemanager historyserver: image: sequenceiq/spark:1.6.0 container_name: historyserver hostname: historyserver ports: - "18080:18080" volumes: - ./config/core-site.xml:/etc/hadoop/core-site.xml - ./config/hdfs-site.xml:/etc/hadoop/hdfs-site.xml - ./config/yarn-site.xml:/etc/hadoop/yarn-site.xml environment: - CLUSTER_NAME=hadoop - NODE_TYPE=HISTORYSERVER depends_on: - namenode - datanode - resourcemanager - nodemanager ``` 3. 创建一个文件夹 `config`,将 HadoopSpark 的配置文件 `core-site.xml`、`hdfs-site.xml` 和 `yarn-site.xml` 放入其中。这些文件可以从官方网站下载。 4. 运行以下命令启动容器: ```bash docker-compose up -d ``` 5. 在浏览器中访问 `http://localhost:50070/` 可以查看 Hadoop 的 web 界面,访问 `http://localhost:8088/` 可以查看 YARN 的 web 界面,访问 `http://localhost:18080/` 可以查看 Spark 的 web 界面。 至此,HadoopSpark 已经在 Docker 中部署完成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值