Spark、Hadoop大数据平台搭建

最新推荐文章于 2024-07-09 16:51:04 发布

Simple-395

最新推荐文章于 2024-07-09 16:51:04 发布

阅读量1.1k

点赞数

文章标签： Hadoop Spark

本文链接：https://blog.csdn.net/lpw_cn/article/details/85233249

版权

大数据-离线同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Spark

2 篇文章 0 订阅

订阅专栏

下载安装包

Spark

分布式计算

spark-2.3.2-bin-hadoop2.7，安装包大小：220M

支持Hadoop 2.7以后的版本

Scala

Scala环境，Spark的开发语言

scala-2.12.8.tgz，安装包大小：20M

Hadoop

分布式存储（计算）

hadoop-2.7.7.tar.gz，安装包大小：209M

Java

Java环境

Java SE Development Kit 8u192，安装包大小：187M

ZooKeeper

注册中心

zookeeper-3.4.13.tar.gz，安装包大小：36M

配置

首先需要配置环境变量

环境变量

打开并编辑~/.bashrc文件，在末尾添加以下内容：

# java
JAVA_HOME=/opt/jdk1.8.0_192
export PATH=$PATH:$JAVA_HOME/bin

# hadoop
HADOOP_HOME=/opt/hadoop-2.7.7
export PATH=$PATH:$HADOOP_HOME/bin

# zookeeper
ZOOKEEPER_HOME=/opt/zookeeper-3.4.13
export PATH=$PATH:$ZOOKEEPER_HOME/bin

# scala
SCALA_HOME=/opt/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin

# spark
SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Host

这里需要设置Host，一个是Hadoop的Name-Node、Data-Node，一个spark的Master、Worker。

# hadoop
192.168.1.151 name-node
192.168.1.155 data-node-sa
192.168.1.156 data-node-sb
192.168.1.157 data-node-sc

spark

conf/slaves

worker-sa
worker-sb
worker-sc

待补充。。。

hadoop

etc/hadoop/slaves

data-node-sa
data-node-sb
data-node-sc

Python3安装

安装pyspark

cd /opt/spark-2.3.2-bin-hadoop2.7/python && python36 setup.py install

安装numpy

pip3 install numpy -i https://pypi.mirrors.ustc.edu.cn/simple/ --trusted-host pypi.mirrors.ustc.edu.cn

启动&停止

hadoop

sbin/start-all.sh
sbin/stop-all.sh

spark

sbin/start-all.sh
sbin/stop-all.sh

执行任务

提交任务

spark-submit --master spark://name-node:7077 --executor-memory 512m --total-executor-cores 2 client.py

几个管理页

Spark

http://name-node:8080/
http://name-node:4040/（执行任务时有效）

Hadoop

http://name-node:8088/
http://name-node:50070/（可查看集群内的文件列表）

测试数据

http://files.grouplens.org/datasets/movielens/
http://files.grouplens.org/datasets/movielens/ml-10m.zip(ratings.dat)

Simple-395

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录