![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 87
另一个世界Azure
这个作者很懒,什么都没留下…
展开
-
spark(2.4)复习
...原创 2022-04-07 09:58:28 · 135 阅读 · 0 评论 -
Spark1.6.0学习心得(一):RDD创建
关于Spark的组成:名称 抽象 组成 功能 Spark 第一抽象 Driver 运行main函数 Executes 执行并行操作 第二抽象 broadcast variable 共享信息在driver和executor之间 Accumulator 计数在driver和executor之间 原文At a hig...翻译 2019-08-02 21:27:19 · 401 阅读 · 0 评论 -
Spark1.6.0学习心得(二):RDD操作transformation与action
RDD操作类型 名称 描述 RDD操作类型 transformation 从一个已有的数据集创建一个新数据集。惰性执行 action 返回一个值到driver端,在一个数据集计算后。非惰性执行 persist(cache) 持久化或缓存RDD。惰性执行 Understanding closuresspark的一个重要点,当代码在集...原创 2019-08-04 18:26:07 · 288 阅读 · 0 评论 -
Spark1.6.0学习心得(三):shuffle、persist、cache、shared variable
Shuffle operationsSpark触发事件叫作shuffle,shuffle是spark的对于重新分布式数据机制,因此它在不同的分区分组不相同。其中包含复制数据在executors和机器上,执行shuffle是复杂和耗时的操作。Background为了进一步了解shuffle期间,发生的事情,思考这个reduceByKey操作的例子。reduceByKey操作产生了一个...原创 2019-08-05 14:30:32 · 342 阅读 · 0 评论 -
Shuffle 操作
在spark中的主要操作,触发一个叫作shuffle的事件。shuffle是spark对于重新分布数据的机制,因此数据能在partitions上进行不同的分组。Shuffle包含在executors和machines上的数据复制,使得shuffle成为一个复杂的和昂贵的操作。 backgroud 为了理解在shuffle期间发生了什么,参照reduceByKey...原创 2019-09-25 17:00:27 · 3437 阅读 · 0 评论 -
Spark-Streaming+kafka
Spark Streaming + Kafka direct APIdirect 周期查询kafka的最新offset在每个topic + partition,然后定义每个batch的offset范围。当处理数据的job被启动时,kakfa的简单消费API是被用于去读取设定的范围的offset从kafka(类似读取文件从文件系统)。有几个优点相对receiver: Simplifi...原创 2019-09-27 11:36:57 · 188 阅读 · 0 评论 -
Spark-debug
Debug your application在yarn模式下,executors和应用的master运行在containers中。yarn有2种模式处理container日志,在应用完成后。首先开启日志收集 yarn.log-aggregation-enable=true,container日志被复制到hdfs,并且删除本地的log,日志查看方式 yarn logs applicationI...原创 2019-09-27 11:38:57 · 160 阅读 · 0 评论