Spark的概述|Local模式的安装使用|官方WordCount案例|案例过程分析

最新推荐文章于 2022-03-26 16:55:55 发布

SmallScorpion

最新推荐文章于 2022-03-26 16:55:55 发布

阅读量319

点赞数

分类专栏： Spark模块化学习文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_40180229/article/details/105497656

版权

Spark模块化学习专栏收录该内容

46 篇文章 6 订阅

订阅专栏

Spark内置模块

Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。
Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。
Spark Streaming：是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API，并且与Spark Core中的 RDD API高度对应。
Spark MLlib：提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
Spark GraphX：主要用于图形并行计算和图挖掘系统的组件。
集群管理器：Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，包括Hadoop YARN、Apache Mesos，以及Spark自带的一个简易调度器，叫作独立调度器。

在这里插入图片描述

Spark安装地址

1）官网地址：http://spark.apache.org/
2）文档查看地址：https://spark.apache.org/docs/2.1.1/
3）下载地址：https://spark.apache.org/downloads.html

安装

上传并解压Spark安装包

tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
mv spark-2.1.1-bin-hadoop2.7 spark-local

在这里插入图片描述

官方求PI案例

1） class：表示要执行程序的主类；
2） master local[2]
local: 没有指定线程数，则所有计算都运行在一个线程当中，没有任何并行计算
local[K]:指定使用K个Core来运行计算，比如local[2]就是运行2个Core来执行
local[*]: 自动帮你按照CPU最多核来设置线程数。比如CPU有4核，Spark帮你自动设置4个线程计算。
3）spark-examples_2.11-2.1.1.jar：要运行的程序；
4）10：要运行程序的输入参数（计算圆周率π的次数，计算次数越多，准确率越高）；

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.11-2.1.1.jar \
10

在这里插入图片描述

WordCount案例

创建输入文件夹

mkdir input

在input下创建2个文件1.txt和2.txt，并输入以空格间隔的单词(可重复)

在这里插入图片描述

启动spark-shell

bin/spark-shell

在这里插入图片描述

登录hadoop102:4040，查看程序运行情况（注意：spark-shell窗口关闭掉，则hadoop102:4040页面关闭）。本地模式下，默认的调度器为FIFO。

在这里插入图片描述

运行WordCount ：只有collect开始执行时，才会加载数据。
sc是SparkCore程序的入口；spark是SparkSQL程序入口；master = local[*]表示本地模式运行。

在这里插入图片描述

分析过程

在这里插入图片描述

SmallScorpion

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录