![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 97
大数据框架学习路径
_laolao_
追求卓越中
展开
-
Flink SQL
这里的Catalog是"目录",和标准SQL中的概念是一致的,主要用来管理所有数据库(database)和表(table)的元数据(metadata)。需要说明的是,Table API和SQL最初并不完善。这里主要添加的依赖是blink的"计划器"(planner),它是Table API的核心组件,负责提供运行时环境,并生成程序的执行计划。事实上,Table API和Flink SQL的使用非常简单,我们首先得到一个"表"(Table),然后对他调用Table API,或者直接写SQL就可以了。原创 2024-02-17 20:35:23 · 803 阅读 · 1 评论 -
Spark性能调优(原理篇)
2020年6月,Spark正式发布了新版本,从2.4直接跨越到了3.0。这次大版本升级的亮点就在于性能优化,它添加了诸如自适应查询执行(AQE)、动态分区裁剪(DPP)、扩展的Join Hints等特性。**Spark已经成为了各大头部互联网公司的标配,在海量数据处理上,扮演着不可获取的关键角色。**比如,字节跳动基于Spark构建的数据仓库去服务几乎所有的产品线,包括抖音、今日头条、西瓜视频、火山视频等。再比如,百度基于Spark推出BigSQL,为海量用户提供次秒级的即席查询。可以预见的是,原创 2024-01-21 23:25:08 · 524 阅读 · 2 评论 -
Flink
unboundedandboundedFlink的世界观是数据流,对Flink而言,其所要处理的主要场景就是流数据,批数据只是流数据的一个极限特例而已,所以Flink也是一款真正的流批统一的计算引擎。无界流:有定义流的开始,但没有定义流的结束。它们会无休止的产生数据。无界流的数据必须持续处理,即数据被摄取后需要立即处理。我们不能等到所有数据都到达后再进行处理,因为输入是无限的,在任何时候输入都不会结束。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。原创 2024-01-15 23:53:31 · 1835 阅读 · 0 评论 -
1.Spark
1.Spark1.1 回顾大数据技术架构(离线):学习一个框架的顺序:架构->角色->各个角色的功能1.2 Spark UI解读spark ui的url:driver的ip地址:40401.3 编程模型RDD介绍Spark使用RDD来抽象数据集,面向RDD的操作等同于面向数据集的操作。RDD是一个抽象类,根据数据集中数据的不同,RDD有不同的子实现类:/* * Licensed to the Apache Software Foundation (ASF) under on原创 2023-10-22 21:00:17 · 170 阅读 · 0 评论