![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
m0_48111425
这个作者很懒,什么都没留下…
展开
-
Spark运行
1 Spark StandAlone 的执行模式 1.1 client模式 Spark stand alone提交到集群中,默认的模式为client模式,默认参数是 --deploy-mode client 例如: /opt/apps/spark-2.3.3-bin-hadoop2.7/bin/spark-submit --master spark://node-1.51doit.cn:7077 --class cn._51doit.spark.day01.WordCount --deploy-.原创 2020-09-01 22:47:45 · 246 阅读 · 0 评论 -
Spark SQL 自定义函数UDF实现concat_ws
需求: 使用自定义函数,实现concat_ws功能 import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object Myconcat_ws { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder().appName("naya").master("local[*]").getOrCreate.原创 2020-08-21 23:14:06 · 418 阅读 · 0 评论 -
Spark SQL 之自定义函数UDAF,实现求平均值和几何平均数
使用自定义函数UDAF实现求平均值(avg)的需求 数据如下: name,salary,dept laoduan,500000,teacher xiaolin,20000,student laozhao,40000,teacher xiaolei,19000,student xiaona,21000,waiter 方式一: 使用老的(过时的)API ,需要先创建一个类,继承自UserDefinedAggregateFunction,并实现其8个方法 import org.apache....原创 2020-08-21 21:09:34 · 1323 阅读 · 1 评论 -
使用Spark实现统计连续登陆的三天及以上的用户
-- 这个问题可以扩展到很多相似的问题:连续几个月充值会员、连续天数有商品卖出、连续打滴滴、连续逾期。 数据如下: guid01,2018-02-28 guid01,2018-03-01 guid01,2018-03-02 guid01,2018-03-04 guid01,2018-03-05 guid01,2018-03-06 guid01,2018-03-07 guid02,2018-03-01 guid02,2018-03-02 guid02,2018-03-03 guid02,2018...原创 2020-08-11 19:44:33 · 808 阅读 · 2 评论 -
Spark之使用单例对象加载规则数据,将数据导入到Mysql中
因为广播变量一旦广播出去,不能再修改 所以使用单例对象加载规则数据,达到可以更新的目的 bject IpRulesLoader { //使用IO流读取数据,然后放到ArrayBuffer中 //在object中定义的数据是静态的,在一个JVM中只有一份 val ipRules = new ArrayBuffer[(Long, Long, String, String)]() //加载Ip规则数据在,在Executor的类加载器中只执行一次 //静态代码块 //..原创 2020-08-17 21:51:10 · 252 阅读 · 0 评论