spark
Rilakkuma
学习,创造。Think Different
展开
-
Spark On YARN启动流程源码分析
1. Spark On Yarn启动 ApplicationMaster; 2. Sparn On Yarn启动 Executor; 3. Spark On Yarn真实运行Driver/ApplicationMaster/Exector日志;原创 2017-05-06 13:43:03 · 3263 阅读 · 3 评论 -
Spark HiveThriftServer2启动流程源码分析
本文从Beeline连接HiveThriftServer2开始,梳理下执行SQL的流程。分析借助重载方法,将原本执行在Hive上的任务,转变成SparkSession.sql()操作的。原创 2017-05-06 17:30:08 · 4095 阅读 · 2 评论 -
关于Spark关注的一些问题
Issues spark.storage.replication.proactive 针对RDD,开启block proactive(主动)复制机制: 当Cached RDD在executor处理上失败时,如果有可用复制集则可以恢复过来,恢复至replica factor的数量; spark.storage.replication.topologyMapper spar...原创 2018-02-23 15:39:49 · 366 阅读 · 0 评论 -
Facebook Spark 60TB Spark应用场景总结学习
可用性调优 SPARK-13793 之前的PipedRDD实现容错性较差,只要发生fetch错误时,整个job就会失败,该PR改进了PipedRDD从而可以更优雅地处理fetch错误,使得job可以从失败中恢复; SPARK-13369 可配置最大fetch失败次数,对于长时间运行的服务,由于机器重启导致fetch失败的次数可能会显著增加,这里增加了一个可配置fetc...原创 2018-02-23 16:37:48 · 391 阅读 · 0 评论 -
Structured Streaming Programming Abstraction, Semantics, and APIs
介绍 通过过去三年里部署、运维Spark Streaming的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“Struct Streaming”的实时计算项目。 语义 我们提出来一个简单的模型“repeated queries(RQ)”。基于该模型用户可以从原静态表以及SQL/DataFrames的一些概念推广至Struct Streaming上。 工作原理...原创 2018-02-23 16:38:39 · 331 阅读 · 0 评论 -
Hive及Spark中Join中过滤下推优化分析
前言: 在Spark SQL中有一条PushPredicateThroughJoin优化规则,其原理是参考Hive中的Join规则完成的,具体参考本文的规则1/2。 Definitions Preserved Row table: The table in an Outer Join that must return all rows. For left outer joins th...原创 2018-02-24 11:49:34 · 886 阅读 · 0 评论 -
Spark 2.3.0支持ORC Vectorized矢量化源码分析
Vectorized ORC Reader: [SPARK-16060] Adds support for new ORC reader that substantially improves the ORC scan throughput through vectorization (2-5x). To enable the reader, users can set spark.sql....原创 2018-03-05 22:22:32 · 2977 阅读 · 0 评论 -
Spark2.3.0之pyspark实现原理分析
背景 PySpark Performance Enhancements: [SPARK-22216][SPARK-21187] Significant improvements in python performance and interoperability by fast data serialization and vectorized execution. SPARK-222...原创 2018-03-06 16:15:18 · 2532 阅读 · 0 评论