Empty-cup-CSDN博客

原创 SparkSQL源码分析系列03-Antlr4分析测试

SparkSQL主要通过Antlr4定义SQL的语法规则，完成SQL词法，语法解析，最后将SQL转化为抽象语法树。所以有必要先了解下Antlr4的工作流程。

2023-08-18 18:20:14 515

原创 SparkSQL源码分析系列02-编译环境准备

本文主要描述一些阅读Spark源码环境的准备工作，会涉及到源码编译，插件安装等。

2023-08-18 16:01:21 620

原创 SparkSQL源码分析系列01-Catalyst作用

与 RDD 不同，SparkSQL 可以获知数据的 Schema 来进行优化，SparkSQL 的 DSL 和 SQL 并不是直接生成计划交给集群执行，而是经过了一个叫做 Catalyst 的优化器，这个优化器能够自动帮助开发者优化代码。SparkSQL 中正是由于 Catalyst 优化器存在，使得无论基于SQL还是DSL分析数据，性能都是一样的，并且底层做了很多优化。首先，RDD大致运行步骤：先将 RDD 解析为由 Stage 组成的 DAG，后将 Stage 转为 Task 直接运行。

2022-12-29 17:17:07 646 1

原创 FlinkSQL系列07-表查询

Flink SQL除了支持基本查询外，还支持一些复杂的高阶聚合和关联。

2022-09-04 21:53:54 1423

原创 Flink系列-背压(反压)

在流式处理系统中，如果出现下游消费的速度跟不上上游生产数据的速度，就种现象就叫做背压(backpressure，也叫反压)

2022-09-02 19:26:26 1794

原创 FlinkSQL系列08-自定义函数

典型的标量函数如：upper(str), lower(str), abs(salary)特点：对输入的数据行（一组）进行持续的聚合，最终对每组数据输出一行或多行（多列）结果。特点：对输入的数据行（一组）进行持续的聚合，最终对每组数据输出一行（多列）结果。特点：运行时每接收一行数据（一个或多个字段），能产出多行、多列的结果。特点：每次只接收一行的数据，输出结果也是 1 行 1 列。典型的如：explode( ), unnest ( )典型的如：sum( ), max( )...

2022-09-01 00:03:18 1180

原创 FlinkSQL系列06-表输出方式

【代码】FlinkSQL系列06-表输出方式。

2022-08-31 23:02:05 981

原创 FlinkSQL系列05-表与流

在动态表的概念中，其输出结果不是一个简单的“结果记录”不断追加的状态，而是一个需要对“前序”结果进行修正的状态；为了能向下游传递其输出结果的动态信息，flink 设计了一种 DataStream，叫做changelogStream（改变日志流）changelogStream 的本质。...

2022-08-31 22:16:43 1438

原创 FlinkSQL系列04-CDC连接器

CDC，Change Data Capture，变更数据获取的简称，使用 CDC 我们可以从数据库中获取已提交的更改，并将这些更改发送到下游，供下游使用。flink 的 cdc connector，在核心包中是没有集成的，需要额外引入依赖。在 flinksql 中，cdc 数据几乎等价于 changelog，核心就在对 record 的 rowkind（+I/-U/+U/-D）进行适配。示例：用 flink-mysql-cdc 连接器，映射源表，并进行查询计算写回mysql表。...

2022-08-31 21:16:20 987 1

原创 FlinkSQL系列03-表定义

表名（catalog_name.database_name.object_name）

2022-08-28 23:42:44 1611

原创 FlinkSQL系列02-Table表对象和SQL表视图

Table 对象获取方式解析：从已注册的表// 通过已经在 env 的 catalog 中注册的表名，获得 Table 对象从 TableDescriptor（连接器/format/schema/options）

2022-08-27 19:47:47 1945

原创 FlinkSQL系列01-编程入门

FlinkSQL 是架构在 flink core 之上用 sql 语言方便快捷地进行结构化数据处理的上层库。API 和 SQL 也可以很容易地混合，因为 Table 对象可以和 sql 表进行方便地互转。创建方式二：(便于 sql 和 core 结合编程)创建方式一：(纯粹表环境)...

2022-08-27 16:38:45 742

原创 Flink入门系列08-State

算子状态提供的数据结构ListStateunionListState 的快照存储数据，在系统重启后，list数据的重分配模式为：广播模式；在每个subtask上都拥有一份完整的数据。ListState 的快照存储数据，在系统重启后，list数据的重分配模式为： round-robin；轮询平均分配。键控状态提供的数据结构ValueStateListStateMapState。.........

2022-08-26 20:11:01 588

原创 Flink入门系列07-延迟数据处理

【代码】Flink入门系列07-延迟数据处理。

2022-08-26 17:29:47 1142

原创 Flink入门系列06-window

在 keyby 后数据分流，window是把不同的key分开聚合成窗口，而 windowall 则把所有的 key 都聚合起来，所以 windowall 的并行度只能为1，而 window 可以有多个并行度。Keyedwindow 重要特性：任何一个窗口，都绑定在自己所属的 key 上，不同 key 的数据肯定不会划分到相同的窗口中去。窗口，就是把无界的数据流，依据一定的规则划分成一段一段的有界数据流。既然划分为有界数据流，通常都是为了”聚合“。window 和 windowAll 区别。.........

2022-08-26 17:04:53 419

原创 Flink入门系列05-时间语义

watermark的核心是在数据中周期性地插入一种时间戳单调递增的特殊数据(watermark)，是 flink 内部自动产生并插入到数据流的，来不可逆转地在整个数据流中进行时间的推进。在需要指定时间语义的相关操作（如时间窗口）时，可以通过显式的api来使用特定的时间语义。数据在接收处理过程中，数据时间可能存在乱序，所以引入 watermark，就是在事件时间语义中，用于单调递增向前推进时间的一种标记。不从最源头算子开始生成watermark，而是从中间环节的某个算子开始生成watermark。...

2022-08-26 14:33:22 1379

原创 Flink入门系列04-process function

process function 相对于前文所述的map、flatmap、filter算子来说，最大的区别是开发人员对数据的处理逻辑拥有更大的自由度。同时，ProcessFunction 继承了 RichFunction，因而具备了 open、close、getRuntimeContext等方法。不同类型的datastream上，应用 process function 时，flink 提供了大量不同类型的 process function，让其针对不同的datastrean 拥有更具有针对性的功能。

2022-08-25 15:12:41 911

原创 Flink入门系列03-多流操作API

需求：将行为事件流进行分流。A事件分到一个流，B事件分到另一个流，其他事件保留在主流。可实现两个流的数据进行窗口关联（包含inner ，left， right， outer）只能得到关联上的数据，即 inner join，其他类型join需要使用 coGroup。场景：事实表流数据和维度表流数据做关联，此时，一般把维度表流数据转换为广播流。参与 union 的流，必须数据类型一致。

2022-08-25 12:56:29 793

原创 Flink入门系列02-编程基础

flink编程基础算子

2022-08-24 20:19:03 1543

原创 Flink入门系列01-概述

Flink是一个分布式、有状态的实时流式处理系统（编程框架）flink 主要是 Java 语言开发而成，但对用户提供了 java、scala、python 编程 API。flink 以流处理方式作为基础，并通过有界流来实现批计算，从而实现批流一体。

2022-08-23 17:06:01 1183

原创 centos7安装docker后安装mysql

安装MySQL查询mysql：查看镜像：拉取mysql5.7版本：方式一：直接运行镜像：方式二：持久化运行镜像：进入mysql容器，并登陆mysql开启远程访问权限：关闭docker中mysql容器查看docker日志：

2022-06-15 22:20:48 229

原创 Java反射之获取Class实例的4种方式

已知具体的类，通过类的 class 属性获取Class clazz = Person.class;已知某个类的实例，调用该实例的 getclass() 方法获取 Class 对象Person p1 = new Person();Class clazz = p1.getclass();已知一个类的全类名，且该类在类路径下，可通过 Class 类的静态方法 forName() 获取，可能抛出 ClassNotFoundException（比较常用）Class clazz = Clas..

2022-05-06 17:45:38 1941

原创 ambari-2.7.3 + HDP-3.1.0安装步骤

目录1.关闭防火墙2.配置/etc/hosts文件3.时间同步4.免密登录5.安装jdk6.安装httpd并配置本地源7.mysql8.启动ambari-server的配置程序（主节点）1.关闭防火墙systemctl stop firewalld systemctl disable firewalld2.配置/etc/hosts文件配置前修改主机名：hostnamectl set-hostname bigdataserver-1192.168.2.10 bigdataserver-1

2022-04-27 15:56:40 738

原创 YARN配置调优

yarn资源管理在YARN中，资源管理由RescoueceManager和NodeManager共同完成，其中，Resourcemanager中的调度器负责资源分配，而NodeManager则负责资源的供给和隔离。容器是内存和CPU的抽象概念。容器运行在NodeManager节点。实际生产环境中，每台机器节点的硬件配置不可能完全一样，所以经常需要手动配置调优yarn在每台节点上的资源情况，以便高效利用集群资源。YARN允许用户配置每台节点上可用的物理资源，注意，这里是“可用的”，因为一个节点上的资源会被

2021-06-19 12:43:28 1935

原创 HiveSQL优化点之多次insert单次扫描表

比如将一张表的数据多次查询出来装载到另外一张表中。如表table1是一个分区表，分区字段为dt，如果需要在表中查询多个特定的分区日期数据，并将数据装载到多个不同的表中或同一张表的不同分区中。一般会写成如下：INSERT INTO table2 SELECT * FROM table1 WHERE dt ='2020-12-25';INSERT INTO table3 SELECT * FROM table1 WHERE dt ='2020-12-26';INSERT INTO table4 SELEC

2021-03-10 15:12:10 1151 1

原创 Spark之五种join策略

Spark源码中关于join策略的描述/*** Select the proper physical plan for join based on join strategy hints, the availability of* equi-join keys and the sizes of joining relations. Below are the existing join strategies,* their characteristics and their limitations.

2020-12-31 16:07:21 850

原创 Hive的Metastore和hiveServer2

1.Metastore作用客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。两种连接Hive客户端方式的流程如下：bin/hin --访问--> metaStore server --访问-->MySQLbeeline --访问-->hiveServer2 --访问--> metaSto

2020-12-19 15:45:08 2120 1

原创 Spark的宽依赖和窄依赖

RDD算子操作会使得RDD分区之间产生不同依赖，主要有两种依赖：宽依赖和窄依赖。宽依赖：是指一个父RDD的各个分区被一个子RDD的各个分区多次依赖，窄依赖：是指一个父RDD的各个分区被一个子RDD的各个分区一次依赖，或者多个父RDD的分区对应一个子RDD分区。如下图所示：注意：有一些特殊的RDD算子分两种情况，可能是窄依赖也可能是宽依赖，如join算子。...

2020-12-18 16:39:20 493 1

原创 Spark作业调度流程

Spark首先会对Job进行一系列的RDD转换操作，并通过RDD之间的依赖关系构建DAG(有向无环图)。然后根据RDD依赖关系将RDD划分到不同的stage中，每个stage按照partition的数量创建多个Task，最后将这些Task提交到集群的work节点上执行。具体流程如下图所示：构建DAG，将DAG提交到调度系统；DAGScheduler负责接收DAG，并将DAG划分成多个stage，最后将每个stage中的Task以任务集合(TaskSet)的形式提交个TaskScheduler做下一步

2020-12-18 15:42:06 335

空空如也

空空如也