自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 FlinkSQL实现滚动窗口和滑动窗口

实现滚动窗口package cn._51doit.flink.day11;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.typeinfo.Types;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.streaming.api.datast

2022-04-10 21:16:41 2576

原创 数据流窗口Join(双流join)

两个数据流都源源不断地发生变化,而且数据流之间存在着某种联系,那么就可以用双流join将两个数据流关联起来。这里用异步IO可以吗?异步IO主要针对其中一个流固定不变(如geo字典库),并一个流在变化。用广播状态可以吗?广播状态只适用于数据量少和数据量变化不频繁地情况。要实现两个数据流的关联,就需要创造两个数据流在同一时间能出现在同一个空间(同一subtask)的条件,而不是像两个流星一样转瞬即逝。首先我们可以按照要join的条件进行keyBy,让数据流进入到同一个分区;其次我们可以划窗口,让两个流数据放

2022-04-07 22:32:19 1117

原创 keyedState状态的存活时间TimeToLive(TTL)

keyedState状态的存活时间TimeToLive(TTL)KeyedState_Only可以设置状态存活指定的时间,超过指定的时间,状态会被清除ValueState的TTLpackage cn._51doit.flink.day07;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.RichMapFunction;

2022-04-06 22:48:34 660

原创 Flink的keyedState

State状态StateBackEndCheckPointing重启策略CheckPointingMode重启策略详解固定次数的重启策略package cn._51doit.flink.day06;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.restartstrategy..

2022-04-05 16:09:49 2488

原创 Flink的Window

flink中的三种时间flink中的windowwindow概述window类型适用场景:主要是用来做变化趋势的用的不多GlobalWindow(CountWindow)Nonkeyed的GlobalWindow(CountWindowAll)package cn._51doit.flink.day05;import org.apache.flink.streaming.api.datastream.AllWindowedStream;im

2022-04-04 22:57:17 2309

原创 flink算子链

算子之间没有shuffle且并行度一样,则会形成operator chainenv.disableOperatorChaining(); 全局禁用算子链package cn._51doit.flink.day04;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.MapFunction;import org.apache..

2022-04-03 22:26:51 2973

原创 Kafka的API

Kafka的API<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.7.2</version> </dependency>Producer API消息发送流程Kafka的Producer发送消息采用异步发送的方式。在消息发...

2022-04-02 22:39:22 448

原创 Flink理论:并行度、槽位分配、任务与子任务

本文图片来源网络,侵删并行度( Parallelism) 一个特定算子的子任务( subtask)的个数被称之为其并行度( parallelism)。 一般情况下,一个 stream的并行度,可以认为就是其所有算子中最大的并行度。 TaskManager 和 Slots Flink 中每一个TaskManager都是一个JVM进程,它可能会在独立的线程上执行一个或多个子任务 为了控制一个TaskManager能接收多少个 task, TaskManager...

2022-04-01 22:03:39 1249 1

原创 Flink程序与数据流、数据传输与数据链

本文所用图来源网络,侵删程序与数据流(DataFlow) 所有的Flink程序都是由三部分组成的: Source 、 Transformation 和 Sink。 Source 负责读取数据源, Transformation 利用各种算子进行处理加工, Sink负责输出。 在运行时, Flink上运行的程序会被映射成“逻辑数据流”( dataflows)。 每一个dataflow以一个或多个sources开始以一个或多个sinks结束。 dataflow 类似于任意.

2022-04-01 22:00:47 381

原创 Kafka生产者

分区写入Kafka策略为什么要分区? 方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic 又可以有多个Partition组成,因此整个集群就可以适应任意大小的数据了; 可以提高并发,因为可以以Partition为单位读写了。 怎么分区?将producer发送的数据封装成一个ProducerRecord对象。 既没有partition值又没有key值的情况下,第一次调用时随机生成一个整数(后面每次调用在这个整数上自增),将这个值与topi

2022-03-31 22:49:21 1215

原创 生成全局用户标识:ods2dwd

在登录状态下,日志中会采集到用户的登录 id(account),可以做到用户身份的精确标识;而在匿名状态下,日志中没有采集到用户的登录 id如何准确标识匿名状态下的用户,是一件棘手而又重要的事情;

2022-03-30 22:27:34 658

原创 Scala字符串&字符串模板输出

基本语法(1)字符串,通过+号连接(2)printf用法:字符串,通过%传值。(3)字符串模板(插值字符串) : 通过$获取变量值object Test02_String { def main(args: Array[String]): Unit = { //(1)字符串,通过+号连接 val name: String = "alice" val age: Int = 22 println(age + "years old " + name + "...

2022-03-29 22:15:03 775

原创 业务域订单表的拉链表开发

需求业务中的订单表不可避免地,每一日都是有增量的,而且旧的订单状态也可能被更新。于是我们找到了拉链表这个媒介来来保存订单的历史,更新、添加增量,既节省了空间,又可以很直观地过滤出每一天的数据状态(历史)。建表&模型设计订单拉链表create table dwd.mall_order_zip( id bigint ,amt decimal(10,2) ,status ...

2022-03-29 22:11:09 475

原创 运行hive脚本报错:java.lang.ClassNotFoundException: Class org.apache.hive.hcatalog.data.JsonSerDe not found

出现error过程描述:创建一个Hive表并对其添加一个JSON格式匹配ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'原因是缺少hive-hcatalog-core-3.1.2.jar的包尝试以下方式将~/hive-3.1.2/hcatalog/share/hcatalog/hive-hcatalog-core-3.1.2.jar 放到hive的lib目录下~为你自己机器的hive安装目录依然报错

2022-03-28 23:12:00 2687

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除