spark
weiha666
Geeker
展开
-
Spark 性能调优
由于大多数Spark计算的内存性质,Spark程序可能会受到群集中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果数据适合内存,则瓶颈是网络带宽,但是有时,您还需要进行一些调整,例如 以序列化形式存储RDD,以减少内存使用量。对于大多数程序,切换到Kryo序列化并以序列化形式保留数据将解决大多数常见的性能问题(官网提示)。1. 常规性能调优一:最优资源配置Spark性能调优的第一步,就是...原创 2019-12-27 10:14:34 · 257 阅读 · 0 评论 -
Spark的Checkpoint源码和机制
深入浅出Spark的Checkpoint机制1 Overview当第一次碰到 Spark,尤其是 Checkpoint 的时候难免有点一脸懵逼,不禁要问,Checkpoint 到底是什么。所以,当我们在说 Checkpoint 的时候,我们到底是指什么?网上找到一篇文章,说到 Checkpoint,大概意思是检查点创建一个已知的节点,SQL Server 数据库引擎可以在意外关闭或崩溃后从恢...原创 2019-12-25 22:40:22 · 211 阅读 · 0 评论 -
spark checkpoint基础
翻译自:http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#checkpointing流应用程序必须24/7运行,因此必须能够抵御与应用程序逻辑无关的故障(例如,系统故障、JVM崩溃等)。为了实现这一点,Spark流需要检查足够多的信息,以便容错存储系统能够从故障中恢复。检查点有两种类型的数据。元数据检查点-将...原创 2019-12-25 19:51:39 · 125 阅读 · 0 评论 -
spark 累加器和自定义累加器 (官网介绍)
本文内容来自官网 spark自定义累加器 的apihttp://spark.apache.org/docs/2.1.1/api/scala/index.html#org.apache.spark.util.AccumulatorV2累加器描述http://spark.apache.org/docs/2.1.1/programming-guide.html#accumulators...原创 2019-12-23 16:53:53 · 502 阅读 · 0 评论 -
spark的rdd,dataframe和dataset对比
1.RDD RDD,全称为 Resilient Distributed Datasets,即分布式数据集,是 Spark 中最基本的数据抽象,它代表一个不可变、 可分区、里面的元素可以并行计算的集合。在Spark 中,对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同的节点上。RDD 可以包含 P...原创 2019-11-24 12:02:00 · 438 阅读 · 0 评论 -
spark rdd dataframe dataset转换
import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, Struc...原创 2019-11-23 10:56:48 · 122 阅读 · 0 评论