【读书笔记】spark快速数据分析（持续更新...）

最新推荐文章于 2024-08-12 23:51:20 发布

吴姬压酒

最新推荐文章于 2024-08-12 23:51:20 发布

阅读量358

点赞数

分类专栏： spark 数据分析数据科学大数据文章标签： spark 数据分析大数据

本文链接：https://blog.csdn.net/weixin_30809083/article/details/83145048

版权

大数据同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

数据科学

2 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

文章目录

spark核心概念

drive program 驱动器程序

当我们使用spark shell时，我们已经拥有了一个实际的驱动器即spark shell本身

连接对象 SparkContext

一个sparkcontent代表了对计算集群的一个连接，spark shell启动时已经自动创建了一个sparkcontext对象，sc对象

executor 执行器

执行器是具体集群中的计算节点

RDD编程

RDD(Resilient Distributed Dataset)弹性分布式数据集

RDD支持的操作

转换操作（transformation）

RDD是惰性求值，转换操作是不会立即进行计算的，只有在行动操作时才会进行计算

行动操作（action）

action 操作会产生结果或者将数据写入到其他地方，transformation操作则返回新的RDD对象

注意点1
默认情况下，spark的RDD会在你每次对它们进行行动操作时重新计算，如果想在多个操作中重用同一个RDD，可以使用RDD.persist()让spark把这个RDD缓存下来，即持久化
注意点2
在类似mapreduce的系统中，常常需要考虑如果把操作组合在一起，以减少mapreduce的周期数，但是在spark中，用户使用更小的操作来组织他们的程序，或许比写出复杂的map函数要更加能提升计算性能

RDD持久化方式

RDD.persist
RDD.cache()

RDD的创建

sc.parallelize()
sc.textFile()

RDD伪集合操作

union 和
intersection 相交
subtract
cartesian

向spark传参

注意点1
传递函数时需要注意，python会将函数所在对象也序列化传出，当你传递的对象是某个对象的成员，或者包含了对某个对象中一个字段的引用时，如self.field spark就会把整个对象发到工作节点上，会导致传递的东西很大
注意点2
传递函数时，如果包含不知道如何序列化的对象，也会报错

RDD常见操作

map()
flatMap()
filter()
distinct()
sample() 采样
fold()
reduce()
aggregate()

aggregate 具有特殊性，它不要求返回值与RDD中的元素值的类型一致，而是可以自定义的传入期待返回的类型的初始值

collect() 返回RDD的数据

RDD持久化

Alt text

PairRDD 转换操作

spark常见问题

数据倾斜

吴姬压酒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【读书笔记】spark快速数据分析（持续更新...）

文章目录spark核心概念RDD编程RDD支持的操作RDD持久化方式RDD的创建RDD伪集合操作向spark传参RDD常见操作RDD持久化PairRDD 转换操作spark常见问题数据倾斜spark核心概念drive program 驱动器程序当我们使用spark shell时，我们已经拥有了一个实际的驱动器即spark shell本身连接对象 SparkContext一个spar...
复制链接

扫一扫