大数据
文章平均质量分 66
牧牧牧牧牧
这个作者很懒,什么都没留下…
展开
-
Hive语句到MR的执行过程笔记
hive执行到mr的过程hive SQL 经过SQL parser 语义解释器,然后生成AST(抽象语法树)接着编译器AST生成逻辑执行计划优化器对逻辑执行计划进行优化(优化合并不必要的ReduceSinkOperator)减少shuffle数量执行器再对逻辑执行计划进行实际的执行,即MR和Spark可使用explain命令查看语法树细说就是Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree 遍历AST Tree,抽象出查询的基本组成单元Q原创 2021-03-15 23:16:07 · 486 阅读 · 0 评论 -
Zookeeper一致性协议
文章目录zookeeper一致性协议ZABZAB协议介绍消息广播崩溃恢复数据同步zookeeper一致性协议ZABZAB协议介绍ZAB协议(zoo原子广播协议)zookeeper是一个分布式应用提供高效而可靠的分布式协调服务。协议主要是两个方面崩溃恢复原子广播所有客户端写入的数据都是写到主进程中(和Raft类似)只要有一半的follower返回ack,leader就能够提交确认当leader可用则进行消息广播,不可用则崩溃恢复消息广播二阶段提交,所有原创 2021-03-15 23:14:31 · 104 阅读 · 0 评论 -
Spark学习笔记-内存管理
文章目录Spark内存管理堆内内存和堆外内存堆内内存堆外内存统一内存管理机制Spark内存管理执行spark程序时spark集群会启动Drive和Executor两种JVM,前者为主控后者为计算执行进程主要说明计算任务内存管理堆内内存和堆外内存堆内内存jvm虚拟机分配给Executor的内存,共享的堆内存Storage:缓存RDD和广播变量Execution:执行Shuffle占用的内存剩余空间:Spark内部的对象实例和用户自定义的对象实例spark submit参数配置:原创 2021-03-14 16:05:05 · 61 阅读 · 0 评论 -
Kafka学习笔记
文章目录kafka对比Rocket:kafka订阅模式:kafka架构:Kafka基础命令基本概念ack应答机制( acks配置参数):关键名词解释故障处理exactly one消费模式:zookeeper的作用生产者事务其他知识kafka对比Rocket:Nameserver:只有路由信息和各个节点信息储存、Brokers信息、topic和broke的信息broker:提供Topic和Queue机制,支持主从容错机制,主要负责Topic消息的存储、管理、分发,单个broke和- 所有Namese原创 2021-03-12 18:06:51 · 91 阅读 · 0 评论 -
flink学习笔记
文章目录基础知识flink 状态:flink容错机制状态一致性end to end一致性:基础知识物理执行图(在各个TaskManager上部署Task后生成的图,并不是一个数据结构)并行度相同的one-to-one任务可以合并成一个大任务(减少数据传输)disablechaining():强制不合并,前后都断开(针对任务资源消耗大的)startnewChain():从当前任务断开不合并slotshareingGroup():同一个共享组任务可以共享slot,不同的共享组不能共享slot默原创 2021-03-12 17:49:07 · 368 阅读 · 0 评论 -
Zookeeper笔记
半数机制:集群中半数以上机器存活集群可用。指定一个机器为leader选举机制:顺序启动服务器,半数以上启动时id数最大的为leader节点类型:持久:客户端和服务器端断开连接后,创建的节点不删除短暂:客户端和服务器端断开连接后,创建的节点自己删除监听器原理:首先一个主进程main()在main线程中创建Zookeeper客户端创建两个线程connet和listenerconnet将组测的监听事件发送给zookeeper,zookeeper将事件添加到监听器列原创 2021-01-31 19:01:22 · 58 阅读 · 0 评论 -
Spark框架基本知识总结
RDDRDD闭包检测:检查闭包内对象是否可以序列化进行网络传输血缘关系:当部分分区数据丢失时,根据血缘关系图,重新生成数据分区宽依赖(父亲(前)有多个儿子(后)窄依赖(父亲最多只有一个儿子)任务划分:Application:初始化一个sparkcontext就会生成一个applicationjob:一个action算子就会生成一个jobstage:等于宽依赖个数加1task:一个stage中最后一个rdd的分区个数就是task的个数RDD检查点对RDD进行的原创 2021-01-31 16:50:59 · 311 阅读 · 1 评论 -
Spark算子笔记
Spark算子Transformation: map:返回一个新的RDD,经过一个新的Fun函数转换之后组成RDD=sc.parallelize(rdd) rdd2 = rdd.map(fun)mapPartitions:将数据分区为单位发送到计算节点(减少网络传输,可能造成内存不足)mapPartitionsWithIndex:以分区发送处理并能获得当前分区索引号flatmap:数据扁平化映射处理 返回一个序列(list)glom:将数据转换为相同类型的数组进行处理原创 2021-01-31 16:21:19 · 82 阅读 · 0 评论 -
从零开始学习hive语句
链接: 参考sql语句原文链接建表语句参考链接原文,自行转换为hive。*# 查询‘01’课程比‘02’课程成绩高的学生的信息及课程分数SELECT st.*,sc.s_score '语文',sc2.s_score '数学'from student st LEFT JOIN score sc on st.s_id = sc.s_id and sc.c_id = '01' left join score sc2 on st.s_id = sc2.s_id and sc2.c_id = '02'w原创 2020-11-24 13:25:25 · 173 阅读 · 0 评论