spark
文章平均质量分 67
MilkyTea'Ou
这个作者很懒,什么都没留下…
展开
-
Spark repartition vs coalesce
Spark SqlThis module provides support for executing relational queries expressed in either SQL or the DataFrame/Dataset API.Spark SQL is broken up into four subprojects:Catalyst (sql/catalyst) - An implementation-agnostic framework for manipulating tre原创 2022-03-23 16:14:56 · 2120 阅读 · 0 评论 -
spark~内存模型
spark内存模型内存模型内存模型1、ExecutionMemory用来计算shuffles、joins、sorts和aggregations2、Storage不是一个真的内存工具,它只是把内存作为他的LRU缓存,Storage默认情况下占executor.memory的54%,用于缓存和传播跨集群的内部数据3、unroll部分内存: spark.storage.unrollFraction。当我们需要在内存展开数据块的时候使用,那么为什么需要展开呢?因为spark允许以序列化和非序列化两种方式存原创 2022-03-22 17:24:28 · 548 阅读 · 0 评论 -
Scala 编程基础
Scala 编程基础Scala 类Scala 范型类型范围界定 (符号 <:)视图界定(符号<%)为什么要了解Scala编程基础,因为在Spark开发中,经常碰到Scala语法,理解这些语法便于顺利Scala 类Scala 范型class Person[T](name:T)class Student[T,S](name:T, age:S) extends Person(name)object GenericTypeTest { def main(args:Array[Strin原创 2021-12-06 15:48:24 · 1775 阅读 · 0 评论 -
Spark 开发总结
spark 开发总结原创 2021-11-30 14:00:26 · 535 阅读 · 0 评论 -
spark 异常解决:A master URL must be set in your configuration
为了省去每次都创建spark对象,写了一个基础类SparkSessionBase,没想到集群抛出异常:A master URL must be set in your configuration。原因就在于spark对象在main函数之外创建,driver就不会把这个spark对象分发到其他work节点上。class SparkSessionBase { protected val s...原创 2018-09-13 09:51:36 · 4234 阅读 · 2 评论 -
Spark 原理总结
本文引用了高兴的博客中的一篇文章spark架构中的部分内容。Spark架构图:JVM堆空间下Spark的内存默认分配情况:1、Spark允许利用90%的堆空间,剩余10%用作jvm系统中的后台进程占用,剩下20%的safe内存,存储用户自定的对象等。2、Spark不是一个真的内存工具,它只是把内存作为他的LRU缓存,Storage默认情况下占executor.memory的54%,用来...原创 2018-11-07 21:15:58 · 606 阅读 · 1 评论