Spark
白头搔更光
这个作者很懒,什么都没留下…
展开
-
Spark自定义函数
简单形式自定义函数直接使用下面的形式引用一个变量或者方法都可以spark.udf.register[String,String]("avg_get",func =>func.toString.concat("内容"))自定义聚合函数定义一个类,实现抽象类方法,然后通过SparkContext注册函数,sql中直接调用 def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel(Le原创 2020-08-21 21:31:54 · 1396 阅读 · 0 评论 -
SparkSQL函数备查表
原创 2020-08-20 19:59:01 · 123 阅读 · 0 评论 -
Spark案例
求连续登陆天数object Demo1{ //练习登陆天数 //guid01,2018-02-28 //guid01,2018-03-01 //guid01,2018-03-02 //guid01,2018-03-04 //guid01,2018-03-05 //guid01,2018-03-06 //guid01,2018-03-07 //guid02,2018-03-01 //guid02,2018-03-02 //guid02,2018-03-03.原创 2020-08-10 20:25:09 · 267 阅读 · 0 评论 -
Spark运行原理及任务调度源码解析(基于Spark3.0)
Spark运行模式可以在本地多线程运行 伪分布式运行 Yarn运行模式 Mesos运行模式基本概念1.application也就是API用户编写的程序,这个程序是分为两部分执行的,一部分是放在Driver端执行的,用于驱动整个程序运行的逻辑,还有一部分是放在各个节点上,让集群协同计算的部分2.DriverDriver在Spark中是用户定义在main方法中,驱动整个Spark程序运行创建SparkContext,为Spark的运行创建环境,负责计算资源的申请,销毁,任务的监控分.原创 2020-08-07 23:43:42 · 704 阅读 · 3 评论 -
Spark实战学习
1.什么是Spark?2.为什么要使用Spark?因为Hadoop在处理数据的时候有多次的IO和网络操作,Mapreduce都要转成map,shuffle和reduce等核心阶段,而且任务之间是串行执行的Spark对比Hadoop MR的特点内存计算比mr快100倍,磁盘计算快mr10倍使用方便,安装部署简单,支持交互式支持处理丰富继承hadoop,能都读取hadoop上的数据,hdfs,hbase等Spark运行模式local本地模式,多线程 standalon.原创 2020-08-03 18:26:53 · 658 阅读 · 2 评论