Spark_另一个世界Azure的博客-CSDN博客

Spark

关注

文章平均质量分 87

关注数：文章数：7 文章阅读量：4950 文章收藏量：1

作者: 另一个世界Azure

这个作者很懒，什么都没留下…

展开

spark(2.4)复习

...

原创 2022-04-07 09:58:28 · 135 阅读 · 0 评论
Spark1.6.0学习心得（一）：RDD创建

关于Spark的组成：名称抽象组成功能 Spark 第一抽象 Driver 运行main函数 Executes 执行并行操作第二抽象 broadcast variable 共享信息在driver和executor之间 Accumulator 计数在driver和executor之间原文At a hig...

翻译 2019-08-02 21:27:19 · 401 阅读 · 0 评论
Spark1.6.0学习心得（二）：RDD操作transformation与action

RDD操作类型名称描述 RDD操作类型 transformation 从一个已有的数据集创建一个新数据集。惰性执行 action 返回一个值到driver端，在一个数据集计算后。非惰性执行 persist(cache) 持久化或缓存RDD。惰性执行 Understanding closuresspark的一个重要点，当代码在集...

原创 2019-08-04 18:26:07 · 288 阅读 · 0 评论
Spark1.6.0学习心得（三）：shuffle、persist、cache、shared variable

Shuffle operationsSpark触发事件叫作shuffle，shuffle是spark的对于重新分布式数据机制，因此它在不同的分区分组不相同。其中包含复制数据在executors和机器上，执行shuffle是复杂和耗时的操作。Background为了进一步了解shuffle期间，发生的事情，思考这个reduceByKey操作的例子。reduceByKey操作产生了一个...

原创 2019-08-05 14:30:32 · 342 阅读 · 0 评论
Shuffle 操作

在spark中的主要操作，触发一个叫作shuffle的事件。shuffle是spark对于重新分布数据的机制，因此数据能在partitions上进行不同的分组。Shuffle包含在executors和machines上的数据复制，使得shuffle成为一个复杂的和昂贵的操作。 backgroud 为了理解在shuffle期间发生了什么，参照reduceByKey...

原创 2019-09-25 17:00:27 · 3437 阅读 · 0 评论
Spark-Streaming+kafka

Spark Streaming + Kafka direct APIdirect 周期查询kafka的最新offset在每个topic + partition，然后定义每个batch的offset范围。当处理数据的job被启动时，kakfa的简单消费API是被用于去读取设定的范围的offset从kafka(类似读取文件从文件系统)。有几个优点相对receiver： Simplifi...

原创 2019-09-27 11:36:57 · 188 阅读 · 0 评论
Spark-debug

Debug your application在yarn模式下，executors和应用的master运行在containers中。yarn有2种模式处理container日志，在应用完成后。首先开启日志收集 yarn.log-aggregation-enable=true,container日志被复制到hdfs,并且删除本地的log,日志查看方式 yarn logs applicationI...

原创 2019-09-27 11:38:57 · 160 阅读 · 0 评论

Spark

作者: 另一个世界Azure

spark(2.4)复习

Spark1.6.0学习心得（一）：RDD创建

Spark1.6.0学习心得（二）：RDD操作transformation与action

Spark1.6.0学习心得（三）：shuffle、persist、cache、shared variable

Shuffle 操作

Spark-Streaming+kafka

Spark-debug