![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark 技术栈
文章平均质量分 96
Vicky_Tang
You still have lots more to work on!
展开
-
大数据—— Spark 优化
文章目录1 Spark参数优化1.1 num-executors1.2 executor-memory1.3 executor-cores1.4 driver-memory1.5 spark.default.parallelism1.6 spark.shuffle.memoryFraction1.7 spark.storage.memoryFraction1.8 资源参考示例2 RDD优化2.1 RDD 复用2.2 RDD 持久化2.3 RDD 过滤3 算子优化4 Shuffle优化5 数据倾斜优化5.1原创 2021-09-18 23:15:46 · 1709 阅读 · 29 评论 -
大数据—— Spark Core 知识点整理
1. Spark 和 Hadoop 相比有什么优势运行速度快:Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。适用场景广泛:大数据分析统计,实时数据处理,图计算及机器学习易用性:编写简单,支持80种以上的高级算子,支持多种语言,数据源丰富,可部署在多种集群中容错性高:...原创 2021-09-14 10:30:50 · 1232 阅读 · 43 评论 -
大数据—— Scala 知识点整理
1. Scala 语言的优点Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性 Scala 运行在 Java 虚拟机上,并兼容现有的 Java 程序 Scala 源代码被变编译成 Java 字节码,所以它可以运行于 JVM之上,并可以调用现有的 Java 类库 作为流行的开源大数据内存计算引擎 Spark 的源码编程语言,Spark 有着良好的性能优势 Scala 将成为未来大数据处理的主流语言2. Scala 中的闭包.原创 2021-09-13 07:57:53 · 870 阅读 · 44 评论