安装Spark

Triumph-CP

已于 2023-03-28 08:27:05 修改

阅读量184

点赞数

分类专栏： Spark 文章标签： spark scala 大数据

于 2023-03-27 23:30:00 首次发布

本文链接：https://blog.csdn.net/cp1002327672/article/details/129788320

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

安装Spark

Spark技术栈
安装
简单实现wordcount
- 读取本地文件
- 读取hdfs文件

Spark技术栈

Spark Core 核心组件，分布式计算引擎
Spark Sql 高性能的基于Hadoop的SQL解决方案
Spark Streaming可以实现高吞吐量、具备容错机制的准实时流处理系统
Spark GraphX 分布式图处理框架
Spark MLib 构建在Spark上的分布式机器学习库

安装

安装spark需要安装scala
在这里插入图片描述

在这里插入图片描述

scala

解压

[root@cp145 install]# tar -zxf scala-2.12.10.tgz -C ../soft/

在这里插入图片描述

改名

[root@cp145 soft]# mv scala-2.12.10/ scala212

在这里插入图片描述

配置环境变量

vim /etc/profile

在这里插入图片描述
配完source一下，使用scala即可进入

spark

解压

[root@cp145 install]# tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C ../soft/

在这里插入图片描述

改名

[root@cp145 soft]# mv spark-3.1.2-bin-hadoop3.2/ spark312

在这里插入图片描述

修改环境变量

vim /etc/profile

在这里插入图片描述

修改conf文件

在这里插入图片描述

spark-env.sh

[root@cp145 conf]# cp spark-env.sh.template spark-env.sh
[root@cp145 conf]# vim ./spark-env.sh

export SCALA_HOME=/opt/soft/scala212
export JAVA_HOME=/opt/soft/jdk180
export SPARK_HOME=/opt/soft/spark312
export HADOOP_INSTALL=/opt/soft/hadoop313
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop
export SPARK_MASTER_IP=cp145
export SPARK_DRIVER_MEMORY=2G
export SPARK_LOCAL_DIRS=/opt/soft/spark312
export SPARK_EXECUTOR_MEMORY=2G

works配置集群用得到

配完source一下，使用spark-shell即可进入

在这里插入图片描述
通过http://cp145:4040可以看到网页

简单实现wordcount

words.txt

hello world
hello java
hadoop java java gogo gogo

读取本地文件

sc.textFile("file:///opt/stufile/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect.foreach(println)

在这里插入图片描述

读取hdfs文件

sc.textFile("hdfs://cp145:9000/tmp/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect.foreach(println)

在这里插入图片描述

Triumph-CP

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
安装Spark

Spark 安装
复制链接

扫一扫

专栏目录