javaisGod_s-CSDN博客

原创 Doris数据导入和导出

Broker 导入，主要用于从HDFS上把文件导入到Doris中。这是一个异步导入的方式。（任务执行成功并不代表数据全部都导入成功）前提：启动HDFS。

2023-04-14 10:06:38 1360

key相同的数据，Value会按照指定的聚合方式聚合到一起。（replace、sum、min、max）冗余模型，允许数据存在重复（冗余）。可以存储原始数据，不会做任何的聚合操作。也不在保证数据的唯一性。唯一模型，保证key的唯一性。换句话说，只要key相同，则Doris会用最新的数据替换之前的数据。Aggregate Model（聚合模型）Duplicate Model（冗余模型）Unique Model（唯一模型）

2023-04-14 09:48:25 843

原创 MySQL-Flink CDC-Hudi综合案例

'table.type'= 'MERGE_ON_READ', -- 默认COPY_ON_WRITE,可选MERGE_ON_READ。'hive_sync.support_timestamp'= 'true'-- 兼容hive timestamp类型。'hive_sync.table'= 'bxg_oe_course_type', -- hive 新建表名。'hive_sync.enable'= 'true', -- 开启自动同步hive。

2023-04-13 21:21:24 588 1

原创 Flink CDC入门案例

由于Flink CDC是基于日志的方式，因此需要开启MySQL的binlog日志。开启binlog日志的配置如下#1.编辑MySQL的配置文件#添加如下内容[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义，不要和 canal 的 slaveId 重复#重启MySQL服务。

2023-04-13 21:10:35 578

原创 Flink整合Hive

flink-sql-connector-hive-3.1.2_2.12-1.14.5.0.jar（FlinkSQL必选）flink-connector-hive_2.12-1.14.5.jar（可选，用于DataStream API）hive-exec-3.1.2.jar（必选）目录下，重启Flink集群即可。注意：把上述jar包放入到。

2023-04-13 20:55:14 427

原创 Flink、Hudi技术选型

目前市场上有三款主流的数据湖框架：Delta Lake，Iceberg、Hudi。相比Kylin、Druid而言，Doris的优势更明显。1）Flink支持流批处理（支持有界数据和无界数据的处理）也就是流批一体。5）Flink支持Savepoint机制，可以方便用于运维，升级，扩容等。3）Flink是有状态的计算，相比storm无状态的计算来说很方便。3) 断点续传，支持全量阶段的 Checkpoint。1) 并发读取，全量数据的读取性能可以水平扩展。2）支持轻量级快照机制，可以用于容错。

2023-04-13 20:44:37 566

原创 FlinkSQL参数优化

【代码】FlinkSQL参数优化。

2023-04-12 11:45:00 1328

原创 FlinkSQL之UDF函数

表值聚合函数：多进多出。标量函数：一进一出。表值函数：一进多出。

2023-04-12 09:45:00 442

原创 FlinkSQL的Watermark机制和Checkpoint机制

Watermark机制，就是水印机制，也叫做水位线机制。就是专门用来解决流式环境下数据迟到问题的。

2023-04-12 08:45:00 1878 1

原创 Flink的窗口机制

tumble（滚动窗口）hop（滑动窗口）session（会话窗口）cumulate（渐进式窗口）Over（聚合窗口）

2023-04-11 18:45:00 1982

原创 Flink的数据类型

timestamp_ltz #带时区，推荐使用，ltz：local time zone。早先Flink版本使用时间戳类型。集合类型，FlinkSQL中名字叫MULTISET，类似于Java的List。数组类型，FlinkSQL中名字叫ARRAY，类似于Java的array。对象类型，FlinkSQL中名字叫ROW，类似于Java的Object。Map类型，FlinkSQL中名字叫Map，类似于Java的Map。#4.boolean类型。

2023-04-11 15:45:00 907

原创 Flink中的表

Flink是一个计算框架，它不持久化存储数据，数据的存储是用户自定义，也就是说，数据处理完后，往外部存储介质输出。

2023-04-11 15:00:00 884

原创 Flink之StreamTableEnvironment对象

1.executeSql("sql 语句")可以执行SQL#2.sqlQuery("sql 语句")执行SQL查询，返回查询结果加载table到内存中把结果插入到table中在内存中创建临时表。

2023-04-11 14:15:00 1884

原创 Flink重要的概念

是JobManager把Executor Graph调度给TaskManager执行，TaskManager收到Execution Graph后，把执行图解析，转换成了能够具体执行任务的物理图。是客户端把任务图（Job Graph）提交给集群后，集群的JobManager根据任务图解析，转换成了Execution Graph。Flink集群 -> Job（作业） -> Task（任务，根据宽依赖算子） -> SubTask（子任务，并行度）槽：也是slot，是TaskManager上的固定的资源。

2023-04-11 11:30:00 629

原创 Flink任务提交流程

Flink任务提交流程

2023-04-11 08:30:00 924

原创 Flink集群有哪些角色？各自有什么作用？

Client是Flink程序提交的客户端，当用户提交一个Flink程序时，会首先创建一个Client，该Client首先会对用户提交的Flink程序进行预处理，并提交到Flink集群中处理，所以Client需要从用户提交的Flink程序配置中获取JobManager的地址，并建立到JobManager的连接，将Flink Job提交给JobManager。Flink 程序在运行时主要有。

2023-04-10 16:45:00 323

原创 Flink的组件栈有哪些？

Libraries层：该层称为Flink应用框架层，根据API层的划分，在API层之上构建的满足特定应用的实现计算框架，也分别对应于面向流处理和面向批处理两类。面向流处理支持：CEP（复杂事件处理）、基于SQL-like的操作（基于Table的关系操作）；API层：API 层主要实现了面向流（Stream）处理和批（Batch）处理API，其中面向流处理对应DataStream API，面向批处理对应DataSet API，后续版本，Flink有计划将DataStream和DataSet API进行统一。

2023-04-10 16:00:00 409

原创 Flink相比传统的Spark Streaming区别?

Flink 根据用户提交的代码生成 StreamGraph，经过优化生成 JobGraph，然后提交给 JobManager进行处理，JobManager 会根据 JobGraph 生成 ExecutionGraph，ExecutionGraph 是 Flink 调度最核心的数据结构，JobManager 根据 ExecutionGraph 对 Job 进行调度。时间机制Spark Streaming 支持的时间机制有限，只支持处理时间。Flink是标准的实时处理引擎，基于事件驱动。

2023-04-10 11:18:08 57

原创 Flink之词频统计案例

【代码】Flink之词频统计案例。

2023-04-10 11:05:45 774

原创 sqoop相关命令

sqoop是apache旗下一款Hadoop和关系数据库服务器之间传送数据的工具。简单来说，sqoop就是一款数据导入导出工具。导入：从RDBMS到hadoop生态圈的过程。导出：从hadoop生态圈到RDBMS。底层：将导入导出命令翻译成MR任务，执行在YARN平台上，底层是对MR的输入和输出做了定制化操作。sqoop的使用方式主要有二种：原生API 和hcatalog API（导入到HDFS 采用的原生API，导入到Hive做增量导入，一般使用hcatalog）

2023-03-18 16:37:07 304

原创 Kafka的生产者的数据分发策略

Kafka的生产者的数据分发策略

2023-03-05 08:56:44 217

原创 KAFKA Topic的分片和副本机制

KAFKA Topic的分片和副本机制

2023-03-05 08:56:01 195

原创 Elasticsearch(ES）写入原理

Elasticsearch(ES）写入原理

2023-03-04 08:53:37 223

原创 Elasticsearch(ES)架构

Elasticsearch(ES)架构

2023-03-04 08:50:28 185

原创 7.3.2 Elasticsearch检索原理（读）

Elasticsearch检索原理（读）

2023-03-03 15:55:08 72

原创 Kafka的消息的存储机制

Kafka的消息的存储机制

2023-02-25 19:25:51 57

原创 Kafka如何保证数据不丢失

Kafka如何保证数据不丢失

2023-02-25 19:22:01 364

原创 Hadoop组件HDFS的secondaryNameNode是如何辅助管理元数据

* 1- SNN会每隔一定的时间, 检测NameNode是否需要进行checkpoint(1个小时/128M)* 2- SNN一旦达到对应阈值, 就会让Namenode执行checkpoint, 滚动形成一个新的edit文件* 3- SNN将之前整个edit文件和对应fsimage通过HTTP请求的方式将其拉取到SNN所在的节点上* 4- 将edits文件和fsimage文件读取到内存中, 进行内存合并操作, 将其合并为一个新的fsimage文件(fsimage.checkpoint)* 5- 将

2023-02-23 21:14:37 129

空空如也

空空如也