安装Spark

Spark技术栈

Spark Core 核心组件,分布式计算引擎
Spark Sql 高性能的基于Hadoop的SQL解决方案
Spark Streaming可以实现高吞吐量、具备容错机制的准实时流处理系统
Spark GraphX 分布式图处理框架
Spark MLib 构建在Spark上的分布式机器学习库

安装

安装spark需要安装scala
在这里插入图片描述

在这里插入图片描述

scala

解压

[root@cp145 install]# tar -zxf scala-2.12.10.tgz -C ../soft/

在这里插入图片描述

改名

[root@cp145 soft]# mv scala-2.12.10/ scala212

在这里插入图片描述

配置环境变量

vim /etc/profile

在这里插入图片描述
配完source一下,使用scala即可进入

spark

解压

[root@cp145 install]# tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C ../soft/

在这里插入图片描述

改名

[root@cp145 soft]# mv spark-3.1.2-bin-hadoop3.2/ spark312

在这里插入图片描述

修改环境变量

vim /etc/profile

在这里插入图片描述

修改conf文件

在这里插入图片描述

spark-env.sh
[root@cp145 conf]# cp spark-env.sh.template spark-env.sh
[root@cp145 conf]# vim ./spark-env.sh
export SCALA_HOME=/opt/soft/scala212
export JAVA_HOME=/opt/soft/jdk180
export SPARK_HOME=/opt/soft/spark312
export HADOOP_INSTALL=/opt/soft/hadoop313
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop
export SPARK_MASTER_IP=cp145
export SPARK_DRIVER_MEMORY=2G
export SPARK_LOCAL_DIRS=/opt/soft/spark312
export SPARK_EXECUTOR_MEMORY=2G
works配置集群用得到

配完source一下,使用spark-shell即可进入

在这里插入图片描述
通过http://cp145:4040可以看到网页
在这里插入图片描述

简单实现wordcount

words.txt

hello world
hello java
hadoop java java gogo gogo

读取本地文件

sc.textFile("file:///opt/stufile/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect.foreach(println)

在这里插入图片描述

读取hdfs文件

sc.textFile("hdfs://cp145:9000/tmp/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect.foreach(println)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值