自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Doris数据导入和导出

Broker 导入,主要用于从HDFS上把文件导入到Doris中。这是一个异步导入的方式。(任务执行成功并不代表数据全部都导入成功)前提:启动HDFS。

2023-04-14 10:06:38 1203

原创 Doris数据模型

key相同的数据,Value会按照指定的聚合方式聚合到一起。(replace、sum、min、max)冗余模型,允许数据存在重复(冗余)。可以存储原始数据,不会做任何的聚合操作。也不在保证数据的唯一性。唯一模型,保证key的唯一性。换句话说,只要key相同,则Doris会用最新的数据替换之前的数据。Aggregate Model(聚合模型)Duplicate Model(冗余模型)Unique Model(唯一模型)

2023-04-14 09:48:25 741

原创 MySQL-Flink CDC-Hudi综合案例

'table.type'= 'MERGE_ON_READ', -- 默认COPY_ON_WRITE,可选MERGE_ON_READ。'hive_sync.support_timestamp'= 'true'-- 兼容hive timestamp类型。'hive_sync.table'= 'bxg_oe_course_type', -- hive 新建表名。'hive_sync.enable'= 'true', -- 开启自动同步hive。

2023-04-13 21:21:24 516 1

原创 Flink CDC入门案例

由于Flink CDC是基于日志的方式,因此需要开启MySQL的binlog日志。开启binlog日志的配置如下#1.编辑MySQL的配置文件#添加如下内容[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复#重启MySQL服务。

2023-04-13 21:10:35 544

原创 Flink整合Hive

flink-sql-connector-hive-3.1.2_2.12-1.14.5.0.jar(FlinkSQL必选)flink-connector-hive_2.12-1.14.5.jar(可选,用于DataStream API)hive-exec-3.1.2.jar(必选)目录下,重启Flink集群即可。注意:把上述jar包放入到。

2023-04-13 20:55:14 349

原创 Flink、Hudi技术选型

目前市场上有三款主流的数据湖框架:Delta Lake,Iceberg、Hudi。相比Kylin、Druid而言,Doris的优势更明显。1)Flink支持流批处理(支持有界数据和无界数据的处理)也就是流批一体。5)Flink支持Savepoint机制,可以方便用于运维,升级,扩容等。3)Flink是有状态的计算,相比storm无状态的计算来说很方便。3) 断点续传,支持全量阶段的 Checkpoint。1) 并发读取,全量数据的读取性能可以水平扩展。2)支持轻量级快照机制,可以用于容错。

2023-04-13 20:44:37 511

原创 FlinkSQL参数优化

【代码】FlinkSQL参数优化。

2023-04-12 11:45:00 1165

原创 FlinkSQL之UDF函数

表值聚合函数:多进多出。标量函数:一进一出。表值函数:一进多出。

2023-04-12 09:45:00 322

原创 FlinkSQL的Watermark机制和Checkpoint机制

Watermark机制,就是水印机制,也叫做水位线机制。就是专门用来解决流式环境下数据迟到问题的。

2023-04-12 08:45:00 1721 1

原创 Flink的窗口机制

tumble(滚动窗口)hop(滑动窗口)session(会话窗口)cumulate(渐进式窗口)Over(聚合窗口)

2023-04-11 18:45:00 1839

原创 Flink的数据类型

timestamp_ltz #带时区,推荐使用,ltz:local time zone。早先Flink版本使用时间戳类型。集合类型,FlinkSQL中名字叫MULTISET,类似于Java的List。数组类型,FlinkSQL中名字叫ARRAY,类似于Java的array。对象类型,FlinkSQL中名字叫ROW,类似于Java的Object。Map类型,FlinkSQL中名字叫Map,类似于Java的Map。#4.boolean类型。

2023-04-11 15:45:00 757

原创 Flink中的表

Flink是一个计算框架,它不持久化存储数据,数据的存储是用户自定义,也就是说,数据处理完后,往外部存储介质输出。

2023-04-11 15:00:00 816

原创 Flink之StreamTableEnvironment对象

1.executeSql("sql 语句")可以执行SQL#2.sqlQuery("sql 语句")执行SQL查询,返回查询结果加载table到内存中把结果插入到table中在内存中创建临时表。

2023-04-11 14:15:00 1718

原创 Flink重要的概念

是JobManager把Executor Graph调度给TaskManager执行,TaskManager收到Execution Graph后,把执行图解析,转换成了能够具体执行任务的物理图。是客户端把任务图(Job Graph)提交给集群后,集群的JobManager根据任务图解析,转换成了Execution Graph。Flink集群 -> Job(作业) -> Task(任务,根据宽依赖算子) -> SubTask(子任务,并行度)槽:也是slot,是TaskManager上的固定的资源。

2023-04-11 11:30:00 612

原创 Flink任务提交流程

Flink任务提交流程

2023-04-11 08:30:00 816

原创 Flink集群有哪些角色?各自有什么作用?

Client是Flink程序提交的客户端,当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。Flink 程序在运行时主要有。

2023-04-10 16:45:00 264

原创 Flink的组件栈有哪些?

Libraries层:该层称为Flink应用框架层,根据API层的划分,在API层之上构建的满足特定应用的实现计算框架,也分别对应于面向流处理和面向批处理两类。面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作);API层:API 层主要实现了面向流(Stream)处理和批(Batch)处理API,其中面向流处理对应DataStream API,面向批处理对应DataSet API,后续版本,Flink有计划将DataStream和DataSet API进行统一。

2023-04-10 16:00:00 355

原创 Flink相比传统的Spark Streaming区别?

Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给 JobManager进行处理,JobManager 会根据 JobGraph 生成 ExecutionGraph,ExecutionGraph 是 Flink 调度最核心的数据结构,JobManager 根据 ExecutionGraph 对 Job 进行调度。时间机制Spark Streaming 支持的时间机制有限,只支持处理时间。Flink是标准的实时处理引擎,基于事件驱动。

2023-04-10 11:18:08 44

原创 Flink之词频统计案例

【代码】Flink之词频统计案例。

2023-04-10 11:05:45 611

原创 sqoop相关命令

sqoop是apache旗下一款Hadoop和关系数据库服务器之间传送数据的工具。简单来说,sqoop就是一款数据导入导出工具。导入:从RDBMS到hadoop生态圈的过程。导出:从hadoop生态圈到RDBMS。底层:将导入导出命令翻译成MR任务,执行在YARN平台上,底层是对MR的输入和输出做了定制化操作。sqoop的使用方式主要有二种:原生API 和hcatalog API(导入到HDFS 采用的原生API,导入到Hive做增量导入,一般使用hcatalog)

2023-03-18 16:37:07 257

原创 Kafka的生产者的数据分发策略

Kafka的生产者的数据分发策略

2023-03-05 08:56:44 171

原创 KAFKA Topic的分片和副本机制

KAFKA Topic的分片和副本机制

2023-03-05 08:56:01 162

原创 Elasticsearch(ES)写入原理

Elasticsearch(ES)写入原理

2023-03-04 08:53:37 187

原创 Elasticsearch(ES)架构

Elasticsearch(ES)架构

2023-03-04 08:50:28 152

原创 7.3.2 Elasticsearch检索原理(读)

Elasticsearch检索原理(读)

2023-03-03 15:55:08 55

原创 Kafka的消息的存储机制

Kafka的消息的存储机制

2023-02-25 19:25:51 47

原创 Kafka如何保证数据不丢失

Kafka如何保证数据不丢失

2023-02-25 19:22:01 337

原创 Hadoop组件HDFS的secondaryNameNode是如何辅助管理元数据

* 1- SNN会每隔一定的时间, 检测NameNode是否需要进行checkpoint(1个小时/128M)* 2- SNN一旦达到对应阈值, 就会让Namenode执行checkpoint, 滚动形成一个新的edit文件* 3- SNN将之前整个edit文件和对应fsimage通过HTTP请求的方式将其拉取到SNN所在的节点上* 4- 将edits文件和fsimage文件读取到内存中, 进行内存合并操作, 将其合并为一个新的fsimage文件(fsimage.checkpoint)* 5- 将

2023-02-23 21:14:37 105

原创 Hadoop组件MR的执行流程

Hadoop组件MR的执行流程

2023-02-23 21:12:51 210

原创 Hadoop组件HDFS之读写流程

HDFS读写流程

2023-02-23 20:59:06 131

原创 Yarn提交mr的流程和三种调用方案的理解

Yarn提交mr的流程和三种调用方案的理解

2023-02-20 21:19:31 545

原创 常用窗口函数总结

常用窗口函数总结

2023-02-20 21:13:38 260

原创 Spark是如何读取大量小文件的

Spark是如何读取大量小文件的

2023-02-19 16:58:33 385

原创 Spark的宽窄依赖关系

Spark的宽窄依赖关系

2023-02-19 16:36:07 83

原创 Spark的shuffle的机制

Spark的shuffle的机制

2023-02-17 20:55:03 93

原创 Spark运行流程( RDD 的job调度流程: Driver内部运行流程)

Spark运行流程( RDD 的job调度流程: Driver内部运行流程)

2023-02-17 20:48:16 172

原创 Spark和MapReduce的区别

Spark和MapReduce的区别

2023-02-17 09:18:42 153

原创 Spark之 RDD的缓存 和 检查点的区别

RDD的缓存 和 检查点的区别

2023-02-17 09:16:29 106

原创 spark常用的部署方式

spark常用的部署方式

2023-02-17 09:10:30 214

原创 Spark之RDD的五大特点

Spark之RDD的五大特点

2023-02-17 09:08:41 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除