大数据——spark一文全知道

最新推荐文章于 2024-10-06 19:51:33 发布

AIGC人工智残

最新推荐文章于 2024-10-06 19:51:33 发布

阅读量1k

点赞数

分类专栏：大数据文章标签：大数据 spark 分布式

本文链接：https://blog.csdn.net/gjinc/article/details/132476049

版权

1、spark概述

spark是专为大规模数据处理而设计的快速通用计算引擎，与Hadoop的MapReduce功能类似，但它是基于内存的分布式计算框架，存储还是采用HDFS。

MapReduce和Spark的区别

MapReduce的MapReduce之间需要通过磁盘进行数据传递，Spark直接存在内存中，所以速度更快。
MapReduce的Task调度和启动开销大，而Spark的Task在线程中开销小一些。
MapReduce编程不够灵活，Spark的API丰富。
MapReduce的Map和Reduce都要一次shuffle，而Spark可以减少shuffle。

两者框架的区别：

功能	Hadoop组件	Spark组件
批处理	MapReduce、Hive或者Pig	Spark Core、Spark SQL
交互式计算	Impala、presto	Spark SQL
流式计算	Storm	Spark Streaming
机器学习	Mahout	Spark ML、Spark MLLib

Spark具有以下优点：

基于内存速度快；
Java、Python和R语言可以开发spark易用性好；
spark框架组件丰富，通用性高；
可以运行在多种存储结构上，兼容性高。

Spark的缺点：

内存消耗大。

2、Spark数据集

Spark的数据集合采用RDD(Resilient Distributed Dataset)弹性分布式数据集，它是一个不可变、可分区和可并行计算的集合。

不可变：RDD1到RDD2时，RDD1任然存在；
可分区：可分为多个partition；
并行计算；
Dataset是指数据集，主要用于存放数据；
Distributed是指分布式存储，并且可以进行分布式计算；
Resilient弹性的特点：
- 数据可以保存在磁盘中，也可以在内存中；
- 数据分布式存储也是弹性的：
  - RDD分在多个节点上存储，与HDFS的分布式存储原理类似：HDFS文件以128M为基准切分为多个block存储在各个节点上，而RDD则会被切分为多个partition，这些partition在不同的节点上；
  - spark读取HDFS时，会把HDFS上的block读到内存上对应为partition；
  - spark计算结束时，会把数据存储到HDFS上，可以对应到Hive或者HBase上，以HDFS为例：RDD的每一个partition的大小小于128M时，一个partition对应HDFS的block；大于128M时，则会切分为多个block。

3、RDD的数据操作

RDD的数据操作也叫做算子，一共包括三类算子：transformation、action和persist，其中前两种进行数据处理，persist进行数据存储操作。

transformation：是将一个已经存在的数据集转化为一个新的数据集，map就是一个transformation操作，把数据集的每一个元素传给函数并返回新的RDD
action：获取数据进行运算后的结果，reduce就是一个action操作，一般聚合RDD所有元素的操作，并返回最终计算结果。
persist：缓存数据，可以把数据缓存在内存上，也可以缓存在磁盘上，甚至可以到磁盘其他节点上。

我们要了解所有的transformation的操作都是lazy：即不会立刻计算结果，而是记录下数据集的transformation操作，只有调用了action操作之后才会计算所有的transformation，这样会让spark运行效率更高。
在这里插入图片描述
pyspark启动
进入SPARK_HOME/sbin⽬录下执⾏

pyspark

在这里插入图片描述
sparkUI
可以在spark UI中看到当前的Spark作业在浏览器访问当前centos的4040端⼝192.168.19.137:4040

启动RDD

3.1 transformation算子

map(func):将func函数作用到数据集的每一个元素上，返回一个新的RDD

rdd1 = sc.parallelize([1,2,3,4,5,6,7,8,9],3)
rdd2 = rdd1.map(lambda x:x+1)
print(rdd2.collect())

[2, 3, 4, 5, 6, 7, 8, 9, 10]

filter(func):筛选func函数中为true的元素，返回一个新的RDD

rdd1 = sc.parallelize([1,2,3,4,5,6,7

最低0.47元/天解锁文章

AIGC人工智残

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录