Spark
chncaesar
健身 搬砖 偶尔写个代码
展开
-
SparkSQL学习- SparkSQL编译和执行过程
Unresolved Logical PlanSpark使用Antlr将SQL/DataFrame 编译为一颗Unresolved Logical Plan(抽象语法树AST),树上的节点不带有数据类型等信息。SparkSqlAstBuilder类与此相关。Resolved Logical PlanSpark从Catalog获取表结构信息,并填充AST得到Resolved L...翻译 2018-07-28 20:48:24 · 955 阅读 · 0 评论 -
SparkSQL学习- InsertIntoHiveTable类
InsertIntoHiveTable可以理解为SparkSQL物理执行计划的一个操作符,将数据价值到Hive表。它包含有Configuration对象 Hive表路径 HiveSessionState对象主要逻辑在sideEffectResult方法,包括校验和设置参数,调用sc.runJob,清理临时文件,刷新Hive表元数据。具体如下构造FileSinkDec对象,写入文件压缩...原创 2018-07-28 21:33:56 · 3518 阅读 · 0 评论 -
Spark 常见参数学习
Spark on Yarnspark.yarn.maxAttempts研究 等价于yarn.resourcemanager.am.max-attempts,表示AM最多运行次数。设置为1,表示该AM失败后,Yarn不自动重启。spark.yarn.max.executor.failures 一个Spark Application的executor累积失败次数达到该值,则该Spark App...翻译 2018-08-04 18:10:46 · 400 阅读 · 0 评论 -
Spark Streaming Receiver学习
Receiver工作机制以org.apache.spark.streaming.dstream.SocketReceiver为例。一个数据流有一个receiver,在executor上启动。Receiver监听端口,拉取数据,调用ReceiverSupervisor和BlockGenerator将数据加入BlockGenerator的缓存。在加入缓存前,调用限流器(RateLimite...翻译 2018-08-15 15:03:59 · 345 阅读 · 0 评论 -
记一次Spark Kerberos的故障解决
有同事反馈,Livy Server启动的所有Spark AM失败。Livy启动的Spark AM默认会enableHiveSupport,且使用$LIVY_HOME/conf/livy.conf的如下配置作为spark.yarn.keytab和spark.yarn.kerberos。livy.server.launch.kerberos.keytablivy.server.launch.k...原创 2018-08-13 14:23:51 · 7920 阅读 · 0 评论