自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

蓝胖纸

努力要找对正确的方向,自欺偷懒永远止步当前。

  • 博客(8)
  • 收藏
  • 关注

原创 SparkSQL相关

SQL 解析:SQL Query,需要经过词法和语法解析,由字符串转换为,树形的抽象语法树。1、通过遍历抽象语法树生成未解析的逻辑语法树(unresolved logic plan),对应SQL解析后的一种树形结构,本身不包含任务数据信息。2、需要经过一次遍历之后,转换成成包含解析后的逻辑算子树(Analyzed LogicPlan),本身携带了各种信息。3、最后经过优化后得到最终的逻辑语法树(Optimized LogicPlan)。不管解析被划分为几步,在Spark 执行环境中,都要转化成RD

2021-12-17 14:27:49 1394

原创 Spark常见算子

UpdateStateByKey(基于磁盘读写)UpdateStateBykey会统计全局的key的状态,不管有没有数据输入,它会在每一个批次间隔返回之前的key的状态。updateStateBykey会对已存在的key进行state的状态更新,同时还会对每个新出现的key执行相同的更新函数操作。如果通过更新函数对state更新后返回来为none,此时刻key对应的state状态会删除(state可以是任意类型的数据结构)。适用场景:UpdataStateBykey可以用来统计历史数据,每次输出所有的

2021-12-16 20:39:16 1203

原创 Spark任务执行模式与两种提交方式

StandaLone与Yarn的任务执行情况不同在于资源分配管理者不同,独立模式下是有Master负责管理,yarn模式是ResourceManager负责调度。1、StandaLone:当集群启动后,Worker会向Master汇报资源,然后Master就会掌握Worker的集群信息。2、Yarn:当启动集群后,NodeManager会向RsourceManager汇报资源,而RM就掌握了集群的资源。任务提交方式有一种是client客户端,另一种是cluster集群方式,由shell命令指定模式。

2021-12-16 11:00:11 1290

原创 Spark启动任务脚本示例

#!/bin/bash#指定工作路径workPath=/data/bigdata/job/callLog-export#获取系统时间dataDate=date +"%Y-%m-%d" -d "-1 days"#获取一个参数if [ -n “$1” ] ;thendataDate=KaTeX parse error: Expected 'EOF', got '#' at position 6: 1fi#̲读取文件地址readFile…{dataDate}*#计算结果地址resultDa

2021-12-16 10:51:09 959

原创 SparkSQL窗口函数

SparkSQL窗口函数MySQL参考表达式:function OVER (PARITION BY … ORDER BY … FRAME_TYPE BETWEEN … AND …)窗口定义部分和窗口函数部分(1)窗口定义部分(over后面的小括号中的内容):如果只写over,所有的数据都会被分到同一个窗口中去。1.1 PARTITION BY 用来控制哪些行的数据会被分到同一个窗口中,Spark中同一个窗口中的数据会被放到同一台机器进行处理(PARTITION BY不是必须的)1.2 ORD

2021-11-03 11:39:09 772

转载 MySQL知识点

什么是SQL?SQL解读是(Structured Query Language)结构化查询语言,是一种数据库查询语言。作用:用于存取数据,查询,更新和管理关系数据库系统。MySQL介绍MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之

2021-09-13 22:45:53 496

原创 HADOOP安装与集群简要配置

前提你已经安装了虚拟机!虚拟机有openjdk,需要完全卸载!!!检查下自带的jdk命令:rpm -qa |grep javarpm -qa |grep jdkrpm -qa |grep gcj如果没有输出信息表示没有安装。如果安装了可以使用rpm -qa | grep java | xargs rpm -e --nodeps 批量卸载所有带有Java的文件 这句命令的关键字是java更多请访问:https://blog.csdn.net/jimuka_liu/article/detai

2021-08-31 15:36:56 192

原创 VM虚拟机3种网络连接方式,及网卡设置与免密登陆

三种连接的特点1、NAT:Network Address Translation 网络地址转换虚拟机与主机的关系:只能单向访问,虚拟机可以通过网络访问到主机,主机无法通过网络访问到虚拟机。虚拟机与网络中其他主机的关系:只能单向访问,虚拟机可以访问到网络中其他主机,其他主机不能通过网络访问到虚拟机。虚拟机与虚拟机的关系:相互不能访问,虚拟机与虚拟机各自完全独立,相互间无法通过网络访问彼此。理解:Guest访问网络的所有数据都是由主机提供的,Guest并不真实存在于网络中,主机与网络中的任何机器都不能

2021-08-31 14:40:23 3267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除