spark
文章平均质量分 80
一帘烟雨
(。・∀・)ノ゙嗨
展开
-
Spark优化之执行计划
1.sparksql 执行计划spark.sql("select a.uid,count(1) from a join u on a.uid=u.uid where a.actorlevel>10 group by a.uid order by a.uid").explain()(1)explain() 查看物理计划== Physical Plan ==*(4) Sort [uid#84 ASC NULLS FIRST], true, 0+- Exchange rangepartit原创 2022-02-27 16:47:54 · 1615 阅读 · 0 评论 -
rdd
1.map(func):数据集中的每个元素经过用户自定义的函数转换形成一个新的RDD,新的RDD叫MappedRDD(例1)?12345678910object Map { def main(args: Array[String]) { val conf =new SparkConf()转载 2017-09-05 14:01:53 · 257 阅读 · 1 评论 -
DataFrame部分函数应用
一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表,以及通过JDBC连接到其他关系型数据库作为数据源来生成DataFrame对象。本文将以MySQL数据库为数据源,生成DataFrame对象后进行相关的DataFame之上的操作。 文中生成DataFrame的代码如下:object DataFrameOper转载 2017-09-05 14:16:20 · 954 阅读 · 1 评论