- 博客(3)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 Flink基础入门概要
Flink 一 FLink概述 Flink 是一个开源的分布式流式处理框架: ①在出现无序或者延迟加载的数据的情况下提供准确的结果。 ②大规模运行,在上千个节点运行时有很好的吞吐量和低延迟。 Flink 保证状态化计算强一致性。”状态化“意味着应用可以维护随着时间推移已经产生的数据聚合或者,并且 Flink 的检查点机制在一次失败的事件中一个应用状态的强一致性。 Flink 支持流式计算和带有事件时间语义的视窗。事件时间机制使得那些事件无序到达甚至延迟到达的数据流能够计算出精确的结果。 除了提供数据驱动的
2021-02-18 14:03:25
179
原创 关于SparkSQL-parse的三个疑问
目录1 InternalRow.scala2 TreeNode.scala3 expressions(表达式)3.1 核心操作3.2 输入输出3.3 基本属性3.4 等价判断3.5 字符串表示 上篇文章的结尾我提到了SQLParse过程中有三个关键的概念 1.数据处理时,如何表示数据? 2.树中间结构数据究竟是什么,如何表示? 3.如何理解解说席规则中的表达式? Spark Sql实际转换过程如下: 逻辑计划和物理计划部分都和spark底层RDD平台无关,它主要靠基础架构Catalyst完成,于是该问题
2020-07-23 19:01:42
403
1
原创 Spark SQL分析
一. Spark SQL执行全过程 逻辑计划(LogicalPlan),理解为树形结构,逻辑算子树;物理计划(PhysicalPlan),理解为物理算子树. 逻辑计划: 未解析的逻辑算子树(Unresolved LogicalPlan),仅数据结构不包含数据信息; 解析后逻辑算子树(Analyzed LogicalPlan),节点中绑定各种信息; 优化后逻辑算子树(Optimized LogicalPlan),应用各种优化规则对一些低效的逻辑计划进行转换. 物理计划: 1. 根据逻辑算子树,生成物理算
2020-07-23 15:39:52
952
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人