Spark、Hadoop大数据平台搭建

下载安装包

Spark

分布式计算

spark-2.3.2-bin-hadoop2.7,安装包大小:220M

支持Hadoop 2.7以后的版本

Scala

Scala环境,Spark的开发语言

scala-2.12.8.tgz,安装包大小:20M

Hadoop

分布式存储(计算)

hadoop-2.7.7.tar.gz,安装包大小:209M

Java

Java环境

Java SE Development Kit 8u192,安装包大小:187M

ZooKeeper

注册中心

zookeeper-3.4.13.tar.gz,安装包大小:36M

配置

首先需要配置环境变量

环境变量

打开并编辑~/.bashrc文件,在末尾添加以下内容:

# java
JAVA_HOME=/opt/jdk1.8.0_192
export PATH=$PATH:$JAVA_HOME/bin

# hadoop
HADOOP_HOME=/opt/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin

# zookeeper
ZOOKEEPER_HOME=/opt/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin

# scala
SCALA_HOME=/opt/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin

# spark
SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Host

这里需要设置Host,一个是Hadoop的Name-Node、Data-Node,一个spark的Master、Worker。

# hadoop
192.168.1.151 name-node
192.168.1.155 data-node-sa
192.168.1.156 data-node-sb
192.168.1.157 data-node-sc

spark

conf/slaves

worker-sa
worker-sb
worker-sc

待补充 。。。

hadoop

etc/hadoop/slaves

data-node-sa
data-node-sb
data-node-sc

Python3安装

安装pyspark

cd /opt/spark-2.3.2-bin-hadoop2.7/python && python36 setup.py install

安装numpy

pip3 install numpy -i https://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn

启动&停止

hadoop

sbin/start-all.sh
sbin/stop-all.sh

spark

sbin/start-all.sh
sbin/stop-all.sh

执行任务

提交任务

spark-submit --master spark://name-node:7077 --executor-memory 512m --total-executor-cores 2 client.py

几个管理页

Spark

http://name-node:8080/
http://name-node:4040/(执行任务时有效)

Hadoop

http://name-node:8088/
http://name-node:50070/(可查看集群内的文件列表)

测试数据

http://files.grouplens.org/datasets/movielens/
http://files.grouplens.org/datasets/movielens/ml-10m.zip(ratings.dat)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值