--------【Spark】
文章平均质量分 89
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
Spark Streaming 实现思路与模块概述
Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0, 1.5.转载 2016-02-05 16:19:12 · 1759 阅读 · 0 评论 -
Spark Streaming 的一些问题
Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。checkpointcheckpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频率高太多。但是升级需要能够无缝的衔接上一次的偏移量。所以spark streaming在无法容忍转载 2016-01-18 01:19:24 · 1914 阅读 · 0 评论 -
Spark实战
01.Spark简介(Spark VS MapReduce)02.Spark生态系统03.Scala集合简介04.spark的关键组件05.核心概念:弹性分布式数据集06.RDD的操作(转换(transformation)动作(actions))07.RDD依赖08.Wordcount例子09. 提交job10.编程接口11.Spark运行架构12.Spark SQL13.SparkStreaming14.练习题15.延伸原创 2015-06-24 16:07:05 · 28533 阅读 · 8 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念转载 2017-04-05 09:59:52 · 1173 阅读 · 0 评论 -
对DStream.foreachRDD的理解
最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下:foreachRDD(func)的官方解释为The most generic output operator that applies a function, func, to each RDD generated from the stream. This function should p转载 2017-11-09 11:36:47 · 2708 阅读 · 1 评论 -
spark-submit时上传spark依赖到hdfs时间较长问题解决
spark-submit时,发现上传spark依赖到hdfs 时间长达数分钟,现象如下方截图:这个日志之后在上传程序依赖的jar,根据不同网络负荷,需要耗时数十秒甚至数分钟,导致任务提交速度超级慢,在官网上查到出现这种现象的原因:https://spark.apache.org/docs/2.1.1/running-on-yarn.html翻译过来就是: 要想在yarn spark...原创 2018-12-22 17:55:47 · 2293 阅读 · 0 评论