Spark的概述|Local模式的安装使用|官方WordCount案例|案例过程分析

Spark内置模块

  1. Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。
  2. Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者Apache Hive版本的HQL来查询数据。Spark SQL支持多种数据源,比如Hive表、Parquet以及JSON等。
  3. Spark Streaming:是Spark提供的对实时数据进行流式计算的组件。提供了用来操作数据流的API,并且与Spark Core中的 RDD API高度对应。
  4. Spark MLlib:提供常见的机器学习功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。
  5. Spark GraphX:主要用于图形并行计算和图挖掘系统的组件。
    集群管理器:Spark设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求,同时获得最大灵活性,Spark支持在各种集群管理器(Cluster Manager)上运行,包括Hadoop YARN、Apache Mesos,以及Spark自带的一个简易调度器,叫作独立调度器。

在这里插入图片描述

Spark安装地址

1)官网地址:http://spark.apache.org/
2)文档查看地址:https://spark.apache.org/docs/2.1.1/
3)下载地址:https://spark.apache.org/downloads.html

安装

  1. 上传并解压Spark安装包
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
mv spark-2.1.1-bin-hadoop2.7 spark-local

在这里插入图片描述

  1. 官方求PI案例

1) class:表示要执行程序的主类;
2) master local[2]
local: 没有指定线程数,则所有计算都运行在一个线程当中,没有任何并行计算
local[K]:指定使用K个Core来运行计算,比如local[2]就是运行2个Core来执行
local[*]: 自动帮你按照CPU最多核来设置线程数。比如CPU有4核,Spark帮你自动设置4个线程计算。
3)spark-examples_2.11-2.1.1.jar:要运行的程序;
4)10:要运行程序的输入参数(计算圆周率π的次数,计算次数越多,准确率越高);

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.11-2.1.1.jar \
10

在这里插入图片描述

WordCount案例

  1. 创建输入文件夹
mkdir input
  1. 在input下创建2个文件1.txt和2.txt,并输入以空格间隔的单词(可重复)

在这里插入图片描述

  1. 启动spark-shell
bin/spark-shell

在这里插入图片描述

  1. 登录hadoop102:4040,查看程序运行情况(注意:spark-shell窗口关闭掉,则hadoop102:4040页面关闭)。本地模式下,默认的调度器为FIFO。

在这里插入图片描述

  1. 运行WordCount : 只有collect开始执行时,才会加载数据。
    sc是SparkCore程序的入口;spark是SparkSQL程序入口;master = local[*]表示本地模式运行。

在这里插入图片描述

分析过程

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值