SparkSQL
SparkSQL
potpof
这个作者很懒,什么都没留下…
展开
-
Spark解决数据倾斜和Spark分区)
解决Spark数据倾斜1、先用sample(false,0,x)采用key,找出倾斜的key2、将数据集拆分成倾斜部分和不倾斜部分3、不倾斜部分走正常路线4、倾斜部分前面加上前缀5、重分区 => 聚合 => 去掉前缀 => 聚合6、如果是大表join大表,其中一个表有数据倾斜,就需要用膨胀法,将倾斜部分的key加上一个0-n的前缀,一条数据膨胀成n条,然后将另一个表的...原创 2020-02-05 15:23:29 · 570 阅读 · 0 评论 -
SparkSQL02
SparkSQL的内置函数(重点)导入:import org.apache.spark.sql.funcations._Actiondf1.count// 缺省显示20行df1.union(df1).show()// 显示2行df1.show(2)// 不截断字符df1.toJSON.show(false)// 显示10行,不截断字符df1.toJSON.show(10, ...原创 2019-11-14 23:29:24 · 183 阅读 · 0 评论 -
SparkSQL学习01(概念)
Spark-SQL集成性Spark SQL允许使用DataFream API进行Spark程序的结构化数据处理,支持Java、Scala、Python、R语言操作统一数据源Spark提供了多种数据源,比如,Hive、MySQL、JSON、Parquet、CSV等集成HiveSparkSQL支持HiveQL语法以及Hive UDF,也可以操作Hive数仓。连通性支持JDBC和ODBC...原创 2019-11-11 23:17:50 · 133 阅读 · 0 评论