![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
weiha666
Geeker
展开
-
Spark 性能调优
由于大多数Spark计算的内存性质,Spark程序可能会受到群集中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果数据适合内存,则瓶颈是网络带宽,但是有时,您还需要进行一些调整,例如 以序列化形式存储RDD,以减少内存使用量。对于大多数程序,切换到Kryo序列化并以序列化形式保留数据将解决大多数常见的性能问题(官网提示)。 1. 常规性能调优 一:最优资源配置 Spark性能调优的第一步,就是...原创 2019-12-27 10:14:34 · 269 阅读 · 0 评论 -
Spark的Checkpoint源码和机制
深入浅出Spark的Checkpoint机制 1 Overview 当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指什么? 网上找到一篇文章,说到 Checkpoint,大概意思是检查点创建一个已知的节点,SQL Server 数据库引擎可以在意外关闭或崩溃后从恢...原创 2019-12-25 22:40:22 · 216 阅读 · 0 评论 -
spark checkpoint基础
翻译自:http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#checkpointing 流应用程序必须24/7运行,因此必须能够抵御与应用程序逻辑无关的故障(例如,系统故障、JVM崩溃等)。为了实现这一点,Spark流需要检查足够多的信息,以便容错存储系统能够从故障中恢复。检查点有两种类型的数据。 元数据检查点-将...原创 2019-12-25 19:51:39 · 126 阅读 · 0 评论 -
spark 累加器和自定义累加器 (官网介绍)
本文内容来自官网 spark自定义累加器 的api http://spark.apache.org/docs/2.1.1/api/scala/index.html#org.apache.spark.util.AccumulatorV2 累加器描述 http://spark.apache.org/docs/2.1.1/programming-guide.html#accumulators ...原创 2019-12-23 16:53:53 · 509 阅读 · 0 评论 -
spark的rdd,dataframe和dataset对比
1.RDD RDD,全称为 Resilient Distributed Datasets,即分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、 可分区、里面的元素可以并行计算的集合。在Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同的节点上。RDD 可以包含 P...原创 2019-11-24 12:02:00 · 439 阅读 · 0 评论 -
spark rdd dataframe dataset转换
import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, Struc...原创 2019-11-23 10:56:48 · 126 阅读 · 0 评论