【Spark学习笔记】（一）—— Spark 概述和 WordCount

最新推荐文章于 2023-05-01 21:17:48 发布

wanger61

最新推荐文章于 2023-05-01 21:17:48 发布

阅读量815

点赞数

分类专栏：大数据开发文章标签： spark 学习大数据

本文链接：https://blog.csdn.net/wanger61/article/details/127692350

版权

大数据开发专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、Spark 概述

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

1. Spark与Hadoop

Spark的主要功能是用于数据计算，所以Spark一直被认为是 Hadoop 框架的升级版

Spark在传统 MapReduce 计算框架的基础上，利用其计算过程的优化，大大加快了数据分析、挖掘的运行和读写速度，并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型

Spark和Hadoop的根本差异是多个作业之间的数据通信问题：Spark多个作业之间的数据通信是基于内存，而Hadoop是基于磁盘

在绝大多数计算场景中，Spark比MapRudecu更有优势，但Spark是基于内存的，所以在实际生产环境的部署中对内存资源的要求更高

2. Spark核心模块

Spark Core：提供Spark最核心最基础的功能
Spark SQL：用来操作结构化数据
Spark Streaming：针对实时数据进行流失计算
Spark MLlib：机器学习算法库
Spark GraphX：面向图计算的库

二、 WordCount

实现思路请添加图片描述

实现代码

// 建立和Spark框架的连接
val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")
val sc = new SparkContext(sparConf)

// 1. 读取文件，逐行读取数据
val lines: RDD[String] = sc.textFile("1.txt")
// 2. 将每行数据拆分为一个个单词
val words: RDD[String] = lines.flatMap( .split(" "))
// 3. 单词进行转换 （hello,1）
val wordToOne = words.map{
    word => （word, 1）
}
// 4.对相同的key的value作聚合，极简原则
val wordToCount = wordToOne.reduceByKey(_+_)
// 5. 转换结果采集到控制台打印
val array: Array[(String, Int)] = wordToCount.collect()
array.foreach(print)
// 关闭Spark连接
sc.stop()