spark
文章平均质量分 76
有你就好@1222
这个作者很懒,什么都没留下…
展开
-
SparkSQL相关
SQL 解析:SQL Query,需要经过词法和语法解析,由字符串转换为,树形的抽象语法树。1、通过遍历抽象语法树生成未解析的逻辑语法树(unresolved logic plan),对应SQL解析后的一种树形结构,本身不包含任务数据信息。2、需要经过一次遍历之后,转换成成包含解析后的逻辑算子树(Analyzed LogicPlan),本身携带了各种信息。3、最后经过优化后得到最终的逻辑语法树(Optimized LogicPlan)。不管解析被划分为几步,在Spark 执行环境中,都要转化成RD原创 2021-12-17 14:27:49 · 1399 阅读 · 0 评论 -
Spark常见算子
UpdateStateByKey(基于磁盘读写)UpdateStateBykey会统计全局的key的状态,不管有没有数据输入,它会在每一个批次间隔返回之前的key的状态。updateStateBykey会对已存在的key进行state的状态更新,同时还会对每个新出现的key执行相同的更新函数操作。如果通过更新函数对state更新后返回来为none,此时刻key对应的state状态会删除(state可以是任意类型的数据结构)。适用场景:UpdataStateBykey可以用来统计历史数据,每次输出所有的原创 2021-12-16 20:39:16 · 1211 阅读 · 0 评论 -
Spark任务执行模式与两种提交方式
StandaLone与Yarn的任务执行情况不同在于资源分配管理者不同,独立模式下是有Master负责管理,yarn模式是ResourceManager负责调度。1、StandaLone:当集群启动后,Worker会向Master汇报资源,然后Master就会掌握Worker的集群信息。2、Yarn:当启动集群后,NodeManager会向RsourceManager汇报资源,而RM就掌握了集群的资源。任务提交方式有一种是client客户端,另一种是cluster集群方式,由shell命令指定模式。原创 2021-12-16 11:00:11 · 1299 阅读 · 0 评论 -
Spark启动任务脚本示例
#!/bin/bash#指定工作路径workPath=/data/bigdata/job/callLog-export#获取系统时间dataDate=date +"%Y-%m-%d" -d "-1 days"#获取一个参数if [ -n “$1” ] ;thendataDate=KaTeX parse error: Expected 'EOF', got '#' at position 6: 1fi#̲读取文件地址readFile…{dataDate}*#计算结果地址resultDa原创 2021-12-16 10:51:09 · 972 阅读 · 0 评论 -
SparkSQL窗口函数
SparkSQL窗口函数MySQL参考表达式:function OVER (PARITION BY … ORDER BY … FRAME_TYPE BETWEEN … AND …)窗口定义部分和窗口函数部分(1)窗口定义部分(over后面的小括号中的内容):如果只写over,所有的数据都会被分到同一个窗口中去。1.1 PARTITION BY 用来控制哪些行的数据会被分到同一个窗口中,Spark中同一个窗口中的数据会被放到同一台机器进行处理(PARTITION BY不是必须的)1.2 ORD原创 2021-11-03 11:39:09 · 795 阅读 · 0 评论