sparkSQL
Jerry林
这个作者很懒,什么都没留下…
展开
-
记录一下spark SQL里concat_ws和collect_set的作用
官方文档:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$ concat_ws: 用指定的字符连接字符串例如:连接字符串:concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。数组元素连接...原创 2018-10-21 15:39:57 · 12460 阅读 · 1 评论 -
left join和left outer join的区别
答案是没区别!left join是left outer join的缩写,所以作用是一样的。另外在SQL里没有区分大小写,也就是left join和LEFT JOIN都是可以的。left join: 包含左表的所有行,对应的右表行可能为空。right join: 包含右表的所有行,对应的左表行可能为空。full join: 只包含左右表都匹配并且不为空的行。...原创 2018-10-27 02:05:03 · 104821 阅读 · 4 评论 -
Spark里如何把结果写入MySQL
这里说的Spark包含SparkCore/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。方法一:把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致) Dataset<Row> resultDF = spark.sql("select hphm,...原创 2018-11-06 22:43:13 · 2029 阅读 · 0 评论 -
SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别
RANK, DENSE_RANK, ROW_NUMBER都是把表中的行按分区内的排序标上序号,但有一点差别:RANK:可以生成不连续的序号,比如按分数排序,第一第二都是100分,第三名98分,那第一第二就会显示序号1,第三名显示序号3。DENSE_RANK: 生成连续的序号,在上一例子中,第一第二并列显示序号1,第三名会显示序号2。ROW_NUMBER: 顾名思义就是行的数值,在上一例...原创 2019-01-28 12:26:47 · 3936 阅读 · 1 评论