SparkSQL
super_man_0820
无无
展开
-
Spark SQL 总结整理(一):RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema。RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合1. RDD和DataFrame上图直观地体现了DataFrame和RDD的区别左侧的 RDD[Person] 虽然以 Person 为类型参数,但S...原创 2019-09-18 10:55:04 · 1354 阅读 · 0 评论 -
Spark SQL 总结整理(二):Spark SQL 解析流程、工作原理
Spark SQL对SQL语句的处理和关系型数据库类似,即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树,然后使用规则(Rule)对Tree进行绑定、优化等处理过程1. Spark SQL运行架构由上图看出,Spark SQL 的解析流程为:1. 使用 SessionCatalog 保存元数据在解析SQL语句之前,会创建 SparkSession,或者如...原创 2019-09-18 15:16:07 · 2946 阅读 · 1 评论