Sparksql
linke1183982890
这个作者很懒,什么都没留下…
展开
-
使用Sparksql求数据库表中单列字段中出现次数最高的值,以及出现的次数
该方法是基于Sparksql的内置函数进行计算我先上代码:dataset和columnName作为参数,dataset是什么就不说了,columnName就是我要执行的字段名首先通过dataset.groupBy(columnName)对该字段进行分组,再count(dataset.col(columnName))进行聚合,count中的参数必须是Column类型的,然后通过alias()...原创 2018-10-22 15:11:55 · 2357 阅读 · 0 评论 -
使用Sparksql计算数据库表中某一列字段的中位数
该方法是基于Sparksql内置函数进行计算我先上代码:dataset和columnName最为参数,columnName是字段名,dataset是什么不说了,首先通过得到columnName字段在dataset中的下标位置,再通过withColumn在dataset表最后添加一列"tmpRowNumber",该列是通过row_number().over(Window.orderBy(col...原创 2018-10-22 16:16:17 · 4252 阅读 · 0 评论 -
Sparksql中插入数据时,如果记.录不存在则insert,如果存在则update
最近在写项目的时候,碰到了需要通过Sparksql对数据库数据根据主键进行存在即覆盖,不存在则追加的操作,记得在以前的使用2.1.0版本的spark的时候,我是使用了replace into完成了这种操作,但现在公司项目是2.3.1版本,replace into不被支持了,很郁闷,在网上找了很多相关操作的博客,都没有我想要的结果,最后干脆用代码解决问题!先上代码:Dataset<Row&...原创 2019-04-19 10:11:14 · 3454 阅读 · 3 评论