Spark
文章平均质量分 85
满床清梦覆星河
这个作者很懒,什么都没留下…
展开
-
spark-submit --files
spark-submit --files通常用来加载外部资源文件,在driver和executor进程中进行访问–files和–jars基本相同。原创 2023-07-26 11:25:56 · 1011 阅读 · 0 评论 -
Spark
Spark知识点原创 2022-12-10 15:57:51 · 3839 阅读 · 2 评论 -
Spark的Shuffle原理及调优
当使⽤reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作的时候,会发⽣shuffle操作。Spark在DAG调度阶段将job划分成多个stage,上游stage做map操作,下游stage做reduce操作,其本质还是MR计算架构。Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce的输⼊,这期间涉及到序列化和反序列化、跨节点⽹络IO和磁盘读写IO等,所以说shuffle是整个应⽤过程特别昂贵的阶段。原创 2022-08-22 20:18:46 · 988 阅读 · 0 评论 -
基于Spark的用户行为分析系统
基于Saprk的用户行为分析系统源码下载一、项目介绍 本项目主要用于互联网电商企业中使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据辅助公司中的PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标。 项目主要采用Spark,使用了Spark技术生态栈中最常用的三个原创 2020-06-20 13:44:31 · 13702 阅读 · 17 评论 -
Spark全面性能调优详解
1、GC对Spark性能影响的原理图解 如果在Task执行期间发生大量的Full GC,那么说明年轻代的Eden区域给的空间不够大,可以通过一下方式进行调优: (1)降低Cache操作占用的内存比例,给Eden等区域更多的内存空间; (2)给Eden区域分配更大的空间,-Xmn参数即可调节,通常给Eden区域预计大小的4/3,如果使用的是HDFS文件存储且每个Executor有4个T...原创 2020-04-21 11:12:51 · 629 阅读 · 0 评论 -
Spark源码深度解析图解
1、Spark内核架构深度剖析图解2、宽依赖和窄依赖深度剖析图解 Spark的宽依赖和窄依赖是DAGScheduler将job划分为多个Stage的重要因素,每一个宽依赖都会划分一个Stage。3、基于YARN的两种提交模式深度剖析图解(Yarn_Client、Yarn_Cluster) Spark也支持StanAlone任务调度模式,所有任务调度都由Spark自己进行调度,但是...原创 2020-01-01 22:02:33 · 1467 阅读 · 2 评论 -
Spark入门基础深度解析图解
1、Scala解析 Ⅰ、Scala解析器 Scala解析器会快速编译Scala代码为字节码然后交给JVM运行; REPL -> Read(取值) -> Evaluation(求值) -> Print(打印) -> Lap(循环) Ⅱ、默认情况下Scala不需要语句终结符,会默认将每一行作为一个语句,如果一行要写多条语句则必须要使用语句终结符 – " ;",也...原创 2020-01-01 18:40:39 · 349 阅读 · 0 评论 -
Spark性能调优
Spark优化原创 2019-12-06 10:02:26 · 1446 阅读 · 2 评论
分享